訓練データの特徴に応じて機械学習は教師あり学習と教師なし学習に分類される

機械学習の種類

機械学習は、機械自身がビッグデータから知識を抽出し学ぶことである。機械が学ぶために用いられるデータは、訓練データあるいは教師データと呼ばれている。機械学習は、訓練データの特徴に応じて、大まかに教師あり学習教師なし学習とに分けることができる。また、教師あり学習用の訓練データと教師なし学習用の訓練データが混ざっている場合の機械学習は、半教師あり学習と呼ばれている。そのほかに、これらと少し異なる機械学習の種類として、強化学習というものが存在する

機械学習の種類

教師あり学習

教師あり学習で使われている訓練データは、観測されたデータと正解ラベルがセットになっている。例えば、機械に画像を分類させるには、訓練データとして、画像とその画像にはどんなオブジェクト(犬・猫など)が写っているのかをセットで用意する必要がある。このような画像とオブジェクト名のセットを大量に用意することで、機械は、オブジェクトの特徴を画像から学べるようになる。また、例えば、機械に小麦の個体あたりの乾燥重量から個体あたりの収量を予測させるには、訓練データとして乾燥重量と収量のセットを用意する必要がある。乾燥重量と収量のセットを大量に用意することで、機械は、乾燥重量と収量の関係性を抽出できるようになる。このように、データだけでなく、そのデータの「答え」にあたる情報も備えられた訓練データを用いた機械学習を、教師あり学習という。教師あり学習は、主に、分類問題と回帰問題を解くときに使われる。

教師なし学習

教師なし学習で使われている訓練データには、正解ラベルが存在しない。この場合、機械は、大量なデータを読み解き、機械自身がデータに隠された特徴やパターンを抽出することになる。そして、機械は、抽出した特徴やパターンに応じて、それらの大量なデータをいくつかのグループに分けたり(クラスタリング)、あるいは、これらの特徴やパターンを表すのに有効な新しい変数(特徴抽出・次元削減)を見つけたりする。

半教師あり学習

半教師あり学習は、正解ラベル付きの訓練データと正解ラベルなしの訓練データの両方を含む訓練データを使用した機械学習である。半教師あり学習では、まず、正解ラベル付きのデータで学習を行い、次に、学習済みのモデルを用いて、正解ラベルなしの訓練データのラベルを予測し、その後、その予測結果を正解ラベルとみなして、学習を進めている。

強化学習

強化学習は、上であげた機械学習の性質と少し異なる機械学習法である。教師あり学習、教師なし学習、および半教師あり学習のいずれも、人がデータを用意し機械に学習させている。そして、学習によって得られたモデルを使用して、未知のデータに対して予測させ、人がその予測結果を見て、次の行動を起こす。これに対して、強化学習は、機械自身が、まわりの環境を観測し、次にどのような行動を出るのかを判断して、行動を起こすことを通して学習が行われる。そして、その行動が正しければ、それに比例した報酬が受けられる。このようなサイクルによって、機械が学習を進めていく。