(データ収集)Webクローリング、DBアクセス、アンケート、文字認識、音声認識などの結果からテキストデータを収集し、HTMLタグ等の不要な表現を除去して分析しやすいように整備する
(辞書構築)当該分野の専門用語や、同義語、類義語、対義語、人名・地名の辞書を、クラウドソーシングによる多数のユーザへのアンケートで収集したり、ブートストラップ法による事例の半自動生成手法を用いて構築する
(構造解析)構築した辞書を活用してパラメータ調整を行った形態素解析器、構文解析器、固有表現抽出器などを用いてテキストデータの構造解析を行う
(特徴量変換)低頻度語やストップワードの除去、名詞や動詞の正規化などを行い、テキストデータを単語集合(Bag-of-words)、分散表現などの分析しやすい特徴量に変換する
(教師あり分析)人手もしくは半自動で正解ラベルを収集したのち、SVMなどの教師あり分類学習を行い、文書のジャンルや感情の判定、単語の品詞やカテゴリの推定を行う
(教師なし分析)トピックモデル(Latent Dirichlet Allocation/LDA)などの統計モデルを用いて、文書をクラスタリングして類似文書にまとめたり、文書中の代表的なトピックの推定を行う
(情報検索)転置インデックスのような索引構造や潜在意味インデクシング(LSI)のような次元圧縮手法を用いて文書の厳密・類似検索を高速に行う
(文書生成)Nグラム統計モデルや再起ニューラルネットワーク(RNN)などを用いて、翻訳、要約、対話、Q&Aなどの出力テキストを生成する