LDA Téma Modellezés: Magyarázat
Háttér
a Témakör modellezés a folyamat azonosítása témákat a dokumentumot. Ez hasznos lehet a keresőmotorok, az ügyfélszolgálat automatizálása, valamint bármely más esetben, ahol a dokumentumok témáinak ismerete fontos. Több módszer is van erre, de itt elmagyarázom az egyiket: Látens Dirichlet allokáció (LDA).
az algoritmus
az LDA a felügyelet nélküli tanulás egyik formája, amely a dokumentumokat zsák szavaknak tekinti (azaz a rend nem számít). Az LDA úgy működik, hogy először kulcsfontosságú feltételezést tesz: a dokumentum létrehozásának módja az volt, hogy egy sor témát választott, majd minden témához egy sor szót választott. Most lehet, hogy azt kérdezi: “ok, tehát hogyan találja meg a témákat?”Nos, a válasz egyszerű: megfordítja ezt a folyamatot. Ehhez ez nem a következő minden dokumentum m:
- tegyük fel, hogy az összes dokumentumban vannak k témák
- terjessze ezeket a K témákat az M dokumentumban (ez az eloszlás α néven ismert, szimmetrikus vagy aszimmetrikus lehet, erről később bővebben) minden szó hozzárendelésével téma.
- az M dokumentumban szereplő minden W szó esetében feltételezzük, hogy a témája rossz, de minden más szó a megfelelő témához van rendelve.
- valószínűségi hozzárendelése szó w téma alapján két dolog:
– milyen témák vannak az m
dokumentumban – hányszor rendelték a word w-t egy adott témához az összes dokumentumban (ezt az eloszlást β-nek hívják, erről később bővebben) - ismételje meg ezt a folyamatot többször minden dokumentumhoz, és kész!
Leave a Reply