Topic modeling - nie tylko LDA w Gensim

•

0 j'aime•238 vues

Jaki algorytm jest najczęściej wykorzystywany do Topic Modelingu? LDA! A jaka jest najpopularniejsza implementacja LDA? Oczywiście ta zawarta w pakiecie Gensim. LDA zaimplementowane w pakiecie Gensim jest niezaprzeczalnie dobrym wyborem startowym. Niestety nie umożliwia szybkiego testowania i poprawiania modelu wykorzystując duże zbiory danych, nie będzie też dobrym wyborem przy pracy z krótkimi tekstami z social media. W swojej prezentacji przedstawię topic modeling z nowej strony, skupiając się na metodzie GSDMM, stworzonej specjalnie pod analizę krótkich tekstów. Przedstawię również alternatywną implementację w języku Python algorytmów topic modelingu, w tym również LDA, umożliwiającą uzyskanie zadowalających wyników nawet przy bardzo krótkich deadline’ach. Prezentacja z Warszawskich Dni Informatyki 2021

Données & analyses

Topic modeling - nie tylko LDA w
Gensim
Dominika Sagan
Data Scientist, Sotrender
www.WarszawskieDniInformatyki.pl

2
WHOAMI
Dominika Sagan
Data Scientist @ Sotrender
d.sagan@sotrender.com

3
Topic Modeling
- Wyodrębnienie tematów na podstawie zbioru dokumentów
- Metody: LDA, LSA, pLSA, DMR, HDP, MG-LDA, PA, HPA,
GSDMM…
Source: https://hackernoon.com/nlp-101-topic-modeling-for-humans-part-1-a030e8155584

4
LDA
Latent Dirichlet allocation
podstawowe założenia:
- Dokumenty są
mieszanką tematów
- tematy to zbiory słów
- w zbiorze dokumentów
jest ściśle określona
liczba tematów
source: http://www.cs.columbia.edu/~blei/papers/Blei2012.pdf

5
LDA - wybór liczby tematów
● Klasycznie -wykorzystać
miary:
- perplexity
- Jaccard similarity
- Coherence measure
● Wykorzystać wagi słów
kluczowych w otrzymanych
tematach:
Temat 1.
source: https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#17howtofindtheoptimalnumberoftopicsforlda

6
LDA
Wyniki:
1. Tematy opisane przez
słowa kluczowe
2. Dokumenty z przypisanym
rozkładem temtów Doc
Topic1: 0.1 ,
Topic2: 0.4 ,
Topic3: 0.2,
...

7
Gensim:
- Biblioteka posiada
implementacje
metod topic
modelingu: LSA,
LDA
- wiele przykładów
zastosowania
- pyLDAvis do
wizualizacji
source: https://www.researchgate.net/figure/pyLDAvis-Visualization-highlighting-relevant-keywords-for-a-Socio-Political-Issue-found_fig5_338948759

8
Tomotopy
- Dostępne metody:
- Latent Dirichlet Allocation (LDAModel)
- Labeled LDA (LLDAModel)
- Partially Labeled LDA (PLDAModel)
- Supervised LDA (SLDAModel)
- Dirichlet Multinomial Regression (DMRModel)
- Generalized Dirichlet Multinomial Regression (GDMRModel)
- ...
source: https://bab2min.github.io/tomotopy/v0.10.2/en/

9
Tomotopy
Czas procesowania 1000
dokumentów z angielskiej
wikipedii (~1 500 000 słów),
tomotopy -200 iteracji, a
gensim -10 iteracji.
- Dużo szybsza
implementacja niż Gensim
- Pozwala na szybkie
testowanie i tworzenie
rozwiązań
https://bab2min.github.io/tomotopy/v0.10.2/en/#performance-of-tomotopy

10
LDA
Zalety:
- dobra “na start” - dużo
dostępnych materiałów
- dużo możliwości wizualizacji
wyników
- wynikiem jest rozkład
tematów w dokumencie
Wady:
- im większy zbiór danych tym
wolniejsze działanie
- wybór parametru liczby
tematów
- założenie, że dokument jest
mieszanką tematów nie ma
sensu przy krótkich
dokumentach

11
Dane z social media
- Bardzo krótkie wypowiedzi (dokumenty)
- Założenie, że dokument jest mieszanką kilku tematów często
nie jest spełniony
- zawierają emotki.
- Analizowane zbiory często są bardzo duże
[‘placek’, ‘ser’, ‘lubić’, ‘przepyszny’]
[akurat, dziś, pozdrawiać, najcieplej, życzyć,
dobry, popołudnie]

12
GSDMM
Gibbs sampling algorithm for a Dirichlet Mixture Model
- szybki
- stworzony z myślą o krótkich dokumentach
- zakłada że każdy dokument posiada 1 temat

13
GSDMM
- Każdemu dokumentowi jest
przypisany jeden temat
- Każdy temat
charakteryzowany jest przez
najczęściej występujące
słowa

14
Wybór liczby tematów - GSDMM:
Można skorzystać z tych samych
metod co przy LDA, albo:
Stworzyć model ze zbyt
dużą liczbą tematów i
połączyć je ręcznie.

15
GSDMM
Zalety:
- przystosowany do krótkich
tekstów
- wynikiem jest przypisanie
jednego tematu do
dokumentu
- szybki
- nie ma potrzeby analizy
wielu modeli o różnych
liczbach tematów
Wady:
- wynikiem jest przypisanie
jednego tematu do
dokumentu
- analiza i łączenie powstałych
tematów może zająć dużo
czas

16
Linki:
- https://towardsdatascience.com/social-media-and-topic-modeli
ng-how-to-analyze-posts-in-practice-d84fc0c613cb
- pyLDAvis
https://pyldavis.readthedocs.io/en/latest/readme.html#
- Gensim LDA -
https://radimrehurek.com/gensim/auto_examples/tutorials/run
_lda.html
- GSDMM - https://github.com/rwalk/gsdmm

Dziękujemy za oglądanie!
Zapraszamy do zadawania pytań
oraz oceny prelekcji pod nagraniem. ↘
www.WarszawskieDniInformatyki.pl

Recommandé

IndeksowanieMarzena Żulewska

Budowa modeli uczenia maszynowego zgodnie z regulacjami o ochronie danych za ...Sotrender

Facebook Audience Insights – czyli czym interesują się polscy użytkownicy Fac...Sotrender

Human-in-the-loop (HILT) machine learning i augmentacja danych, czyli jak zbu...Sotrender

Rozpoznawanie treści obrazów na kreacjach reklam na Facebooku z wykorzystanie...Sotrender

Predykcja efektywności działań marketingowych w serwisie FacebookSotrender

Trenowanie i wdrażanie modeli uczenia maszynowego z wykorzystaniem Google Clo...Sotrender

Wykrywanie mowy nienawiści w języku polskimSotrender

Recommandé

IndeksowanieMarzena Żulewska

Budowa modeli uczenia maszynowego zgodnie z regulacjami o ochronie danych za ...Sotrender

Facebook Audience Insights – czyli czym interesują się polscy użytkownicy Fac...Sotrender

Human-in-the-loop (HILT) machine learning i augmentacja danych, czyli jak zbu...Sotrender

Rozpoznawanie treści obrazów na kreacjach reklam na Facebooku z wykorzystanie...Sotrender

Predykcja efektywności działań marketingowych w serwisie FacebookSotrender

Trenowanie i wdrażanie modeli uczenia maszynowego z wykorzystaniem Google Clo...Sotrender

Wykrywanie mowy nienawiści w języku polskimSotrender

Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...Sotrender

Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]Sotrender

Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...Sotrender

Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...Sotrender

Sztuczna inteligencja w marketingu | Infoshare 2019Sotrender

Pragmatic Machine Learning in BusinessSotrender

Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...Sotrender

Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...Sotrender

Obsługa klienta w social mediaSotrender

Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]Sotrender

Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...Sotrender

Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie? Sotrender

Mallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los VideosSotrender

Kilka praktycznych sposobów na wykorzystanie danych z social media w marketinguSotrender

Pożrą, przeżują i wydalą - Google, Facebook i polskie biznesy internetoweSotrender

Facebook w Polsce - podsumowanie 2016 r. Sotrender

Email marketing a media społecznościowe – czyli kim Są Twoi subskrybenci?Sotrender

YouTube w Polsce - podsumowanie 2016 r.Sotrender

Poznaj swojego odbiorcę - social media jako źródło wiedzy dla Twojej markiSotrender

Twitter w Polsce – podsumowanie 2016 r.Sotrender

Contenu connexe

Plus de Sotrender

Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...Sotrender

Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]Sotrender

Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...Sotrender

Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...Sotrender

Sztuczna inteligencja w marketingu | Infoshare 2019Sotrender

Pragmatic Machine Learning in BusinessSotrender

Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...Sotrender

Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...Sotrender

Obsługa klienta w social mediaSotrender

Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]Sotrender

Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...Sotrender

Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie? Sotrender

Mallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los VideosSotrender

Kilka praktycznych sposobów na wykorzystanie danych z social media w marketinguSotrender

Pożrą, przeżują i wydalą - Google, Facebook i polskie biznesy internetoweSotrender

Facebook w Polsce - podsumowanie 2016 r. Sotrender

Email marketing a media społecznościowe – czyli kim Są Twoi subskrybenci?Sotrender

YouTube w Polsce - podsumowanie 2016 r.Sotrender

Poznaj swojego odbiorcę - social media jako źródło wiedzy dla Twojej markiSotrender

Twitter w Polsce – podsumowanie 2016 r.Sotrender

Plus de Sotrender (20)

Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...

Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]

Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...

Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...

Sztuczna inteligencja w marketingu | Infoshare 2019

Pragmatic Machine Learning in Business

Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...

Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...

Obsługa klienta w social media

Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]

Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...

Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie?

Mallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los Videos

Kilka praktycznych sposobów na wykorzystanie danych z social media w marketingu

Pożrą, przeżują i wydalą - Google, Facebook i polskie biznesy internetowe

Facebook w Polsce - podsumowanie 2016 r.

Email marketing a media społecznościowe – czyli kim Są Twoi subskrybenci?

YouTube w Polsce - podsumowanie 2016 r.

Poznaj swojego odbiorcę - social media jako źródło wiedzy dla Twojej marki

Twitter w Polsce – podsumowanie 2016 r.

Topic modeling - nie tylko LDA w Gensim

1. Topic modeling - nie tylko LDA w Gensim Dominika Sagan Data Scientist, Sotrender www.WarszawskieDniInformatyki.pl

2. 2 WHOAMI Dominika Sagan Data Scientist @ Sotrender d.sagan@sotrender.com

3. 3 Topic Modeling - Wyodrębnienie tematów na podstawie zbioru dokumentów - Metody: LDA, LSA, pLSA, DMR, HDP, MG-LDA, PA, HPA, GSDMM… Source: https://hackernoon.com/nlp-101-topic-modeling-for-humans-part-1-a030e8155584

4. 4 LDA Latent Dirichlet allocation podstawowe założenia: - Dokumenty są mieszanką tematów - tematy to zbiory słów - w zbiorze dokumentów jest ściśle określona liczba tematów source: http://www.cs.columbia.edu/~blei/papers/Blei2012.pdf

5. 5 LDA - wybór liczby tematów ● Klasycznie -wykorzystać miary: - perplexity - Jaccard similarity - Coherence measure ● Wykorzystać wagi słów kluczowych w otrzymanych tematach: Temat 1. source: https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#17howtofindtheoptimalnumberoftopicsforlda

6. 6 LDA Wyniki: 1. Tematy opisane przez słowa kluczowe 2. Dokumenty z przypisanym rozkładem temtów Doc Topic1: 0.1 , Topic2: 0.4 , Topic3: 0.2, ...

7. 7 Gensim: - Biblioteka posiada implementacje metod topic modelingu: LSA, LDA - wiele przykładów zastosowania - pyLDAvis do wizualizacji source: https://www.researchgate.net/figure/pyLDAvis-Visualization-highlighting-relevant-keywords-for-a-Socio-Political-Issue-found_fig5_338948759

8. 8 Tomotopy - Dostępne metody: - Latent Dirichlet Allocation (LDAModel) - Labeled LDA (LLDAModel) - Partially Labeled LDA (PLDAModel) - Supervised LDA (SLDAModel) - Dirichlet Multinomial Regression (DMRModel) - Generalized Dirichlet Multinomial Regression (GDMRModel) - ... source: https://bab2min.github.io/tomotopy/v0.10.2/en/

9. 9 Tomotopy Czas procesowania 1000 dokumentów z angielskiej wikipedii (~1 500 000 słów), tomotopy -200 iteracji, a gensim -10 iteracji. - Dużo szybsza implementacja niż Gensim - Pozwala na szybkie testowanie i tworzenie rozwiązań https://bab2min.github.io/tomotopy/v0.10.2/en/#performance-of-tomotopy

10. 10 LDA Zalety: - dobra “na start” - dużo dostępnych materiałów - dużo możliwości wizualizacji wyników - wynikiem jest rozkład tematów w dokumencie Wady: - im większy zbiór danych tym wolniejsze działanie - wybór parametru liczby tematów - założenie, że dokument jest mieszanką tematów nie ma sensu przy krótkich dokumentach

11. 11 Dane z social media - Bardzo krótkie wypowiedzi (dokumenty) - Założenie, że dokument jest mieszanką kilku tematów często nie jest spełniony - zawierają emotki. - Analizowane zbiory często są bardzo duże [‘placek’, ‘ser’, ‘lubić’, ‘przepyszny’] [akurat, dziś, pozdrawiać, najcieplej, życzyć, dobry, popołudnie]

12. 12 GSDMM Gibbs sampling algorithm for a Dirichlet Mixture Model - szybki - stworzony z myślą o krótkich dokumentach - zakłada że każdy dokument posiada 1 temat

13. 13 GSDMM - Każdemu dokumentowi jest przypisany jeden temat - Każdy temat charakteryzowany jest przez najczęściej występujące słowa

14. 14 Wybór liczby tematów - GSDMM: Można skorzystać z tych samych metod co przy LDA, albo: Stworzyć model ze zbyt dużą liczbą tematów i połączyć je ręcznie.

15. 15 GSDMM Zalety: - przystosowany do krótkich tekstów - wynikiem jest przypisanie jednego tematu do dokumentu - szybki - nie ma potrzeby analizy wielu modeli o różnych liczbach tematów Wady: - wynikiem jest przypisanie jednego tematu do dokumentu - analiza i łączenie powstałych tematów może zająć dużo czas

16. 16 Linki: - https://towardsdatascience.com/social-media-and-topic-modeli ng-how-to-analyze-posts-in-practice-d84fc0c613cb - pyLDAvis https://pyldavis.readthedocs.io/en/latest/readme.html# - Gensim LDA - https://radimrehurek.com/gensim/auto_examples/tutorials/run _lda.html - GSDMM - https://github.com/rwalk/gsdmm

17. Dziękujemy za oglądanie! Zapraszamy do zadawania pytań oraz oceny prelekcji pod nagraniem. ↘ www.WarszawskieDniInformatyki.pl