Skip to content

Latest commit

 

History

History
13 lines (9 loc) · 937 Bytes

File metadata and controls

13 lines (9 loc) · 937 Bytes

Sample Code for Mallet LDA (ParallelTopicModel)

Mallet の gibbs-sampling LDA を使用してドキュメントのトピック分類を行うサンプルコード。

  1. 学習用とトピック推定用に使用するデータは1行に1ドキュメントが保存されているテキストファイル。
  2. 日本語の形態素解析には Kuromoji + NEologd を使用している。
$ sbt "runMain train.txt --predict predict.txt"

Maven に登録されているライブラリを使用しているが、Mallet のサイトからコマンドライン版がダウンロードできる。 コマンドラインで使用するには Getting Started with Topic Modeling and MALLET のチュートリアルを参照。