機械学習とは何か

機械学習とは、人工知能の一種です。コンピューターに大量の経験(データ)や正解例を蓄積(学習)させることで新たなルールやパターンを獲得させ、分析や認識、制御などを実行します。機械学習が使われている身近な機能の一例としては、動画アプリなどのレコメンドのほか、画像認識・顔認証、翻訳・音声アシスタントなどが挙げられます。

さらに機械学習は、各産業においても幅広いシステムで活用されています。製造業では設備の異常検知や製品の検品、金融業の不正検知、医療業界では画像解析による診療支援、物流では配送システム、小売業の需要予測などが導入されており、デジタルトランスフォーメーション(DX)やIoT化の推進には欠かせない仕組みといえるでしょう。

また、機械学習は従来の人によるプログラミングと比較されることも多いため、両者の違いについても理解しておきましょう。

項目 従来のプログラミング 機械学習
ロジック 人間の経験と知識 大量のデータ
得意 明確な計算、決まった手順の処理 曖昧な判断、予測、パターン認識
苦手 複雑すぎる条件分岐(例:写真の判別) データの少ない分野、根拠の明確化
修正方法 コード(条件式)を書き換える さらにデータを追加して再学習させる

従来のプログラミングは「人がルールを作り、コンピューターが実行する」のに対し、機械学習では「データをもとにコンピューターがルールを自ら学び、その結果をもとに処理を行う」点が大きな違いだといえます。また、上記の表のように従来のプログラミングと機械学習のそれぞれに得意不得意があることにも注意しましょう。学習データが少ない場合や単純処理、計算・会計処理などの精密な計算が必要なケースなど、従来のプログラミングによるシステムの方が適していることもあります。


機械学習の種類は3種類

機械学習はデータや正解例などの蓄積方法によって「教師あり学習」「教師なし学習」「強化学習」の3種類に分類されます。種類の違いは導入・運用する際のコストや手間の大きさなどに直結するため、ぜひ理解しておきましょう。

1. 教師あり学習について

コンピューターが、あらかじめ正解(正解ラベル)が与えられた「教師データ」を読み込み、学習する方法を教師あり学習といいます。例えば、さまざまな果物の画像データを学習して判別する際、リンゴやブドウ、ミカンなどの形状や特徴といった正解となる情報も各データに紐付け(ラベリング)して蓄積します。このように大量の問題と正解を読み込むことで、予測ルールをコンピューターが作り上げ、精度の高い判定が可能になります。

教師あり学習におけるコンピューターのアウトプットの方法は、分類と回帰の2種類に大別されます。先ほどの果物の例は、どのカテゴリーに属するかを予測する分類に該当します。一方、回帰についてはリンゴやブドウの重さ、大きさ、値段を学習し、それぞれの数値を予測する際に採用されます。

項目 分類 (Classification) 回帰 (Regression)
予測対象 カテゴリー、ラベル、種類 具体的な数値、量
答えの形 イエス/ノー(可否)、A/B/C(カテゴライズ) 150.5円、25.3度、100個
評価の基準 正解率(何個当たったか) 誤差(正解とどれくらい離れているか)
主な用途 画像認識、病気の診断、不備検知 売上予測、株価予測、気温予測

2. 教師なし学習について

教師あり学習の対照的な学習方法として比較されるケースが多いのが、教師データを読み込まずに学習する「教師なし学習」です。正解を与えられないデータを学習し、隠れた規則性やパターン、構造の発見につなげることが大きな目的となります。例えば、ECサイトのユーザーの購入履歴を大量に読み込ませて学習することで、従来は把握できていなかった購入行動の発見につなげられるでしょう。

また、教師なし学習の手法は、データの類似性に基づき自動的に複数のグループ(クラスタ)にまとめる「クラスタリング」と、データの特徴を削って重要な情報を明らかにして可視化する「次元削減」に大別されます。

項目 クラスタリング 次元削減
主な処理 データをグループに分ける データの項目を減らす
変化する部分 データの個数の見え方 データの特徴量の数
目的・ゴール 隠れた集団を見つける データの単純化・可視化をする

3. 強化学習について

強化学習は「報酬」という成果を最大化するために、コンピューター自らが試行錯誤を繰り返す学習方法のことです。報酬とはいわゆるフィードバック(評価点)であり、コンピューターの行動に対して人間が「プラスの評価(正の報酬)」「マイナスの評価(負の報酬)」を与えることで、その合計がより大きくなるよう促します。ここで教師あり学習、教師なし学習、強化学習の3つの違いについて確認しましょう。

種類 与えられるもの コンピューターの目的
教師あり学習 正解(これは猫です) 正解を正確に当てること
教師なし学習 データのみ データの共通点を見つけること
強化学習 報酬(+10点 / -1点) 将来得られる報酬の合計を最大にすること

強化学習は、学習プロセスの中心的な役割である「エージェント(Agent)」と相互作用を行う対象である「環境(Environment)」、そしてエージェントが環境下で行った「行動(Action)」の結果に対して報酬を与えることが大きな流れとなります。強化学習は、自動運転や産業ロボット、フィンテックなど幅広い産業での活躍が期待されており、特にルールが決まっているものの複雑な選択肢が無数にある状況での意思決定に強いと考えられています。


AIインフラ・プラットフォーム・アプリのご相談ならFPTへ

お問い合わせ
お問い合わせ

機械学習の具体的な手法は

教師あり学習、教師なし学習の代表的な手法を2種類ずつ紹介しました。それぞれさらに詳細な手法が存在するため、以下の表でまとめて紹介します。

手法名 目的 分類 特徴 活用例
線形回帰 回帰 教師あり 変数間の関係を直線式 y=ax+b で表す。シンプルで解釈が容易 売上予測、家賃査定
ロジスティック回帰 回帰・分類 教師あり 2値(Yes/No)が起こる確率を予測。分類問題で広く使われる スパム判定、病気の陽性・陰性判定
決定木 回帰・分類 教師あり 樹木のような階層構造で判断基準を可視化。意思決定プロセスが明確 ユーザー離脱分析、ローン審査
ランダムフォレスト 回帰・分類 教師あり 複数の決定木を組み合わせて平均化。過学習を防ぎ、精度が高い 故障予測、レコメンドエンジン
ニューラルネットワーク 回帰・分類 教師あり 脳の神経回路を模倣。多層(中間層)により複雑なパターンの学習が可能 翻訳、顔認証、自動運転
k近傍法(kNN法) 回帰・分類 教師あり 近傍のk個のデータを参照して分類や平均値を算出する単純な手法 異常検知、レコメンドシステム
アダブースト 回帰・分類 教師あり 弱い学習器を順次作成し、誤回答を重点的に学習して精度を高める 顔認証
ナイーブベイズ 分類 教師あり ベイズの定理を用いた統計的手法。テキスト分類に強く高速 ポジネガ判定、スパムメール判定
サポートベクターマシン 分類 教師あり データ間の境界(最適超平面)を最大化するように引く。境界付近の精度が高い 画像認識、テキスト分類
k-means クラスタリング 教師なし データを指定したk個のグループに分け、重心を動かして最適化 顧客セグメンテーション
主成分分析 (PCA) 次元削減 教師なし 多数の変数を情報を保ったまま少ない指標に要約する アンケート要約、データの可視化
階層型クラスタリング クラスタリング 教師なし 似たデータを順に統合し、樹形図(デンドログラム)で構造化する 商品カテゴリーの整理

AI・機械学習・ディープラーニングの関係性

機械学習と混同されがちなのが人工知能(AI)やディープラーニングではないでしょうか。厳密にはそれぞれ概念が異なっており、人工知能>機械学習>(ニューラルネットワーク)>ディープラーニングという内包関係で整理されるのが一般的です。

最も広義であるAIの定義は多々あるのですが、ここでは「人間の知的な活動を模倣する技術の総称」と覚えておきましょう。そのAIを実現する手法の一つが機械学習であり、さらに機械学習のアルゴリズムの一種がディープラーニングという包含関係にあるのです。また、機械学習とディープラーニングの大きな違いとしては、機械学習では人間がデータセットである「特徴量」を設計・指定する一方、ディープラーニングは膨大な量の特徴量を自動的に学習できることが挙げられます。

機械学習とディープラーニングの適材適所

人による定義や特徴量の指定が必要なく、自動的に高精度な学習、出力が可能なディープラーニングですが、全てのシーンで他の機械学習よりも優れているというわけではありません。それぞれのメリット、デメリット、得意分野を理解し、最適な活用方法を模索する必要があります。

比較項目 機械学習 (ML) ディープラーニング (DL)
データの定義 人間が「特徴量」を指示する必要がある コンピューターが自動で特徴を見つける
データ量 数千〜数万件程度でも機能する 膨大なデータ(数十万〜数億件)が必要
ハードウェア 一般的なPC(CPU)で動作可能 高性能な計算機(GPU/TPU)が必須
学習時間 比較的短い(数秒〜数時間) 数日〜数週間かかることもある
判断根拠 人間に理解しやすい 複雑でブラックボックス化しやすい
メリット 少ないデータで低コストに導入できる 複雑なデータから超高精度な予測ができる
デメリット 複雑なデータ(画像や音声)の扱いに限界がある コストが高く、大量のデータ収集が大変

前述したように機械学習にはさまざまな技術があり、用途や処理データのサイズ、解決すべき課題によって柔軟に対応しやすいのが特徴といえます。一方、ディープラーニングには高性能GPUや膨大な量のデータ、さらに学習時間など大きなコストがかかることが一般的です。


AIインフラ・プラットフォーム・アプリのご相談ならFPTへ

お問い合わせ
お問い合わせ

機械学習の活用シーン

機械学習の代表的な活用シーンである、分析、予測、画像認識、音声認識、生成について解説します。

分析

データを収集・整理して有益な情報を出力します。ECサイトのユーザー行動の可視化とその傾向の分析をすることで、レコメンドシステムによっておすすめの商品を表示するなど、UXや売上向上につながる具体的なアクションにつなげられます。

予測

膨大なデータからパターンや傾向、相関関係を分析し、さらに将来の需要や売上、シーズンごとの顧客行動などを導き出します。高精度な予測を素早く出力できれば、コスト削減やリソースの最適化、意思決定の迅速化につなげられるでしょう。

画像認識

さまざまな画像や動画データを学習し、AIが目的に応じて高速かつ高精度に自動認識します。代表的なタスクとしては、画像全体を分類する「画像分類」、画像内にあるものを特定する「物体検出」、画像内のものを領域分けする「セグメンテーション」、画像内の文字を読み取ってテキストデータ化する「文字認識」が挙げられます。

音声認識

音声データを数値化して特徴量に変換して処理し、テキスト化や音声入力などを行います。文字起こしやコールセンターでの活用はもちろん、手が離せないビジネスシーンにおける音声操作、ハンズフリー操作、近年はリアルタイム翻訳サービスも登場するなど活躍の幅は広がっています。

生成

生成AI(ジェネレーティブAI)は、ディープラーニングを用いて学習した大量なデータパターンをもとに、テキストや画像、音声、動画などのコンテンツを新たに生み出す技術です。クリエイティブはもちろん、ビジネスシーンにおいても議事録の要約やメール返信の自動化など業務効率化の実現にも貢献します。一方、ハルシネーションや著作権・セキュリティなどの課題もあるため、活用する側のリテラシーも求められます。


まとめ

機械学習はAIの一種であり、その技術的手法も多様で活用目的に応じて最適な選択をすることが求められます。近年は機械学習の一種であるディープラーニングに注目が集まっていますが、データ量やコストなどの観点で機械学習の方が適している環境も少なくありません。機械学習の多様な特徴を知ることで、ビジネスの課題解決に向けた、新しいアイデアが生まれるきっかけになるかもしれません。


FPT

この記事の監修者・著者:FPTコンテンツ制作チーム

FPTコンテンツ制作チームは、ITソリューションやデジタル技術に関する情報を発信しています。業界動向や技術トピックについて、記事の制作を行っています。
監修者・著者の詳しい情報はこちら →


関連リンク


関連ブログ:コラム


関連ブログ:AI