Jaki algorytm jest najczęściej wykorzystywany do Topic Modelingu? LDA! A jaka jest najpopularniejsza implementacja LDA? Oczywiście ta zawarta w pakiecie Gensim. LDA zaimplementowane w pakiecie Gensim jest niezaprzeczalnie dobrym wyborem startowym. Niestety nie umożliwia szybkiego testowania i poprawiania modelu wykorzystując duże zbiory danych, nie będzie też dobrym wyborem przy pracy z krótkimi tekstami z social media. W swojej prezentacji przedstawię topic modeling z nowej strony, skupiając się na metodzie GSDMM, stworzonej specjalnie pod analizę krótkich tekstów. Przedstawię również alternatywną implementację w języku Python algorytmów topic modelingu, w tym również LDA, umożliwiającą uzyskanie zadowalających wyników nawet przy bardzo krótkich deadline’ach.
Prezentacja z Warszawskich Dni Informatyki 2021
4. 4
LDA
Latent Dirichlet allocation
podstawowe założenia:
- Dokumenty są
mieszanką tematów
- tematy to zbiory słów
- w zbiorze dokumentów
jest ściśle określona
liczba tematów
source: http://www.cs.columbia.edu/~blei/papers/Blei2012.pdf
5. 5
LDA - wybór liczby tematów
● Klasycznie -wykorzystać
miary:
- perplexity
- Jaccard similarity
- Coherence measure
● Wykorzystać wagi słów
kluczowych w otrzymanych
tematach:
Temat 1.
source: https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#17howtofindtheoptimalnumberoftopicsforlda
6. 6
LDA
Wyniki:
1. Tematy opisane przez
słowa kluczowe
2. Dokumenty z przypisanym
rozkładem temtów Doc
Topic1: 0.1 ,
Topic2: 0.4 ,
Topic3: 0.2,
...
7. 7
Gensim:
- Biblioteka posiada
implementacje
metod topic
modelingu: LSA,
LDA
- wiele przykładów
zastosowania
- pyLDAvis do
wizualizacji
source: https://www.researchgate.net/figure/pyLDAvis-Visualization-highlighting-relevant-keywords-for-a-Socio-Political-Issue-found_fig5_338948759
9. 9
Tomotopy
Czas procesowania 1000
dokumentów z angielskiej
wikipedii (~1 500 000 słów),
tomotopy -200 iteracji, a
gensim -10 iteracji.
- Dużo szybsza
implementacja niż Gensim
- Pozwala na szybkie
testowanie i tworzenie
rozwiązań
https://bab2min.github.io/tomotopy/v0.10.2/en/#performance-of-tomotopy
10. 10
LDA
Zalety:
- dobra “na start” - dużo
dostępnych materiałów
- dużo możliwości wizualizacji
wyników
- wynikiem jest rozkład
tematów w dokumencie
Wady:
- im większy zbiór danych tym
wolniejsze działanie
- wybór parametru liczby
tematów
- założenie, że dokument jest
mieszanką tematów nie ma
sensu przy krótkich
dokumentach
11. 11
Dane z social media
- Bardzo krótkie wypowiedzi (dokumenty)
- Założenie, że dokument jest mieszanką kilku tematów często
nie jest spełniony
- zawierają emotki.
- Analizowane zbiory często są bardzo duże
[‘placek’, ‘ser’, ‘lubić’, ‘przepyszny’]
[akurat, dziś, pozdrawiać, najcieplej, życzyć,
dobry, popołudnie]
12. 12
GSDMM
Gibbs sampling algorithm for a Dirichlet Mixture Model
- szybki
- stworzony z myślą o krótkich dokumentach
- zakłada że każdy dokument posiada 1 temat
13. 13
GSDMM
- Każdemu dokumentowi jest
przypisany jeden temat
- Każdy temat
charakteryzowany jest przez
najczęściej występujące
słowa
14. 14
Wybór liczby tematów - GSDMM:
Można skorzystać z tych samych
metod co przy LDA, albo:
Stworzyć model ze zbyt
dużą liczbą tematów i
połączyć je ręcznie.
15. 15
GSDMM
Zalety:
- przystosowany do krótkich
tekstów
- wynikiem jest przypisanie
jednego tematu do
dokumentu
- szybki
- nie ma potrzeby analizy
wielu modeli o różnych
liczbach tematów
Wady:
- wynikiem jest przypisanie
jednego tematu do
dokumentu
- analiza i łączenie powstałych
tematów może zająć dużo
czas