機械学習の基本は統計学にあり、その出力データはすべて確率で表現される
-
機械学習では、アルゴリズムとは数式のことで、教師データとは実績値のこと
-
クラス分類は、学習速度は早いが、一般的には精度があまり良くない
ロジスティック回帰は、過去のデータをもとに、あるクラスに該当する確率を予測。この確率に対して閾値を設定し、クラスを割り当てる手法
-
クラスタリングとは、正解付データの不要な教師なし学習
-
レコメンデーションは、利用者が投稿したレビュー点数、行動履歴、商品購入の有無かどから、その利用者に「評点」を付ける。その評点から利用者の嗜好を分析して、おすすめ商品を推測するのが「協調フィルタリング」
-
回帰やクラス分類などの「教師あり学習」の場合は、この教師データをもとに数式の変数(パラメータ)をコンピュータが自動的に決定する
教師データに合わせすぎた状態を「過学習」という。これを避けるために、教師データとは別に評価用のデータも用意して、検証する必要がある
ただし、教師データの件数が膨大であれば、このような過学習は解消する
-
自然言語は、人間の長い歴史の中で自然に発展してきたため、プログラミング言語と比べると、曖昧性が非常に高く、自然言語処理という特別な処理が必要になる
単語や文章の特徴量。特徴量を数値化することで文章を数値で扱えるようになり、文章のデータ量を大幅に圧縮することができた
単語や文章の特徴量は、N-gram処理やTF-IDF処理が一般的。対象文章内では高頻度の単語が特徴的である
-
文章を単語に分割してクリーニングした後、その文章の特徴量を抽出することでベクトル化
-
まず国語辞書や文法の知識、一般常識等をデータベース化しておく必要がある
多数の解釈の中から最も「妥当な」解釈を判断することをコンピュータに実装するのは難しいこと
自然言語処理の難しさの根本原因は、自然言語が本質的に持ち、多様な解釈を可能とする「曖昧さ」jにある
自然言語処理の最も身近な例は「かな漢字変換」
検索エンジンは、自然言語処理のおかげで利用することができ、「機械翻訳」の研究成果で自然言語処理は発達してきたと言える
文章から単語を切り出す処理を「形態素解析」
「意味解析」、「文脈解析」と進むが、いまだに研究段階にあり制度の良い確立した手法はまだない
-
単語分析に加えて「品詞付与」などの処理も行う
「形態素解析ソフトウェア」として有名なのがMeCabというオープンソース