背景
トピックモデリングは、ドキュメントのセット内のトピックを識別するプロセスです。 これは、検索エンジン、顧客サービスの自動化、およびドキュメントのトピックを知ることが重要である他のインスタンスに便利です。 これを行うには複数の方法がありますが、ここでは1つを説明します: ディリクレ(LDA)の愛称で知られる。
アルゴリズム
ldaは、文書を単語の袋として見る教師なし学習の一形態です(つまり、順序は問題ではありません)。 LDAは、最初に重要な前提を作ることによって動作します:文書が生成された方法は、トピックのセットを選択し、各トピックのために単語のセットを選 今、あなたは”okだから、どのようにトピックを見つけるのですか?”まあ答えは簡単です:それはこのプロセスをリバースエンジニアリング。 これを行うには、各文書mに対して次のことを行います:
- すべての文書にk個のトピックがあると仮定します
- これらのk個のトピックを文書mに配布します(この分布はαと呼ばれ、対称または非対称
- 文書mの各単語wについて、そのトピックは間違っていると仮定しますが、他のすべての単語には正しいトピックが割り当てられています。
- 確率的に単語wに二つのことに基づいてトピックを割り当てます:
-ドキュメントmにあるトピック
-word wがすべてのドキュメントに特定のトピックを割り当てられた回数(この分布はβと呼ばれ、詳細は後述します)
- このプロセスを各ドキュメントに対して何度も繰り返すと完了です!
モデル
Leave a Reply