SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
Topic modeling - nie tylko LDA w
Gensim
Dominika Sagan
Data Scientist, Sotrender
www.WarszawskieDniInformatyki.pl
2
WHOAMI
Dominika Sagan
Data Scientist @ Sotrender
d.sagan@sotrender.com
3
Topic Modeling
- Wyodrębnienie tematów na podstawie zbioru dokumentów
- Metody: LDA, LSA, pLSA, DMR, HDP, MG-LDA, PA, HPA,
GSDMM…
Source: https://hackernoon.com/nlp-101-topic-modeling-for-humans-part-1-a030e8155584
4
LDA
Latent Dirichlet allocation
podstawowe założenia:
- Dokumenty są
mieszanką tematów
- tematy to zbiory słów
- w zbiorze dokumentów
jest ściśle określona
liczba tematów
source: http://www.cs.columbia.edu/~blei/papers/Blei2012.pdf
5
LDA - wybór liczby tematów
● Klasycznie -wykorzystać
miary:
- perplexity
- Jaccard similarity
- Coherence measure
● Wykorzystać wagi słów
kluczowych w otrzymanych
tematach:
Temat 1.
source: https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#17howtofindtheoptimalnumberoftopicsforlda
6
LDA
Wyniki:
1. Tematy opisane przez
słowa kluczowe
2. Dokumenty z przypisanym
rozkładem temtów Doc
Topic1: 0.1 ,
Topic2: 0.4 ,
Topic3: 0.2,
...
7
Gensim:
- Biblioteka posiada
implementacje
metod topic
modelingu: LSA,
LDA
- wiele przykładów
zastosowania
- pyLDAvis do
wizualizacji
source: https://www.researchgate.net/figure/pyLDAvis-Visualization-highlighting-relevant-keywords-for-a-Socio-Political-Issue-found_fig5_338948759
8
Tomotopy
- Dostępne metody:
- Latent Dirichlet Allocation (LDAModel)
- Labeled LDA (LLDAModel)
- Partially Labeled LDA (PLDAModel)
- Supervised LDA (SLDAModel)
- Dirichlet Multinomial Regression (DMRModel)
- Generalized Dirichlet Multinomial Regression (GDMRModel)
- ...
source: https://bab2min.github.io/tomotopy/v0.10.2/en/
9
Tomotopy
Czas procesowania 1000
dokumentów z angielskiej
wikipedii (~1 500 000 słów),
tomotopy -200 iteracji, a
gensim -10 iteracji.
- Dużo szybsza
implementacja niż Gensim
- Pozwala na szybkie
testowanie i tworzenie
rozwiązań
https://bab2min.github.io/tomotopy/v0.10.2/en/#performance-of-tomotopy
10
LDA
Zalety:
- dobra “na start” - dużo
dostępnych materiałów
- dużo możliwości wizualizacji
wyników
- wynikiem jest rozkład
tematów w dokumencie
Wady:
- im większy zbiór danych tym
wolniejsze działanie
- wybór parametru liczby
tematów
- założenie, że dokument jest
mieszanką tematów nie ma
sensu przy krótkich
dokumentach
11
Dane z social media
- Bardzo krótkie wypowiedzi (dokumenty)
- Założenie, że dokument jest mieszanką kilku tematów często
nie jest spełniony
- zawierają emotki.
- Analizowane zbiory często są bardzo duże
[‘placek’, ‘ser’, ‘lubić’, ‘przepyszny’]
[akurat, dziś, pozdrawiać, najcieplej, życzyć,
dobry, popołudnie]
12
GSDMM
Gibbs sampling algorithm for a Dirichlet Mixture Model
- szybki
- stworzony z myślą o krótkich dokumentach
- zakłada że każdy dokument posiada 1 temat
13
GSDMM
- Każdemu dokumentowi jest
przypisany jeden temat
- Każdy temat
charakteryzowany jest przez
najczęściej występujące
słowa
14
Wybór liczby tematów - GSDMM:
Można skorzystać z tych samych
metod co przy LDA, albo:
Stworzyć model ze zbyt
dużą liczbą tematów i
połączyć je ręcznie.
15
GSDMM
Zalety:
- przystosowany do krótkich
tekstów
- wynikiem jest przypisanie
jednego tematu do
dokumentu
- szybki
- nie ma potrzeby analizy
wielu modeli o różnych
liczbach tematów
Wady:
- wynikiem jest przypisanie
jednego tematu do
dokumentu
- analiza i łączenie powstałych
tematów może zająć dużo
czas
16
Linki:
- https://towardsdatascience.com/social-media-and-topic-modeli
ng-how-to-analyze-posts-in-practice-d84fc0c613cb
- pyLDAvis
https://pyldavis.readthedocs.io/en/latest/readme.html#
- Gensim LDA -
https://radimrehurek.com/gensim/auto_examples/tutorials/run
_lda.html
- GSDMM - https://github.com/rwalk/gsdmm
Dziękujemy za oglądanie!
Zapraszamy do zadawania pytań
oraz oceny prelekcji pod nagraniem. ↘
www.WarszawskieDniInformatyki.pl

Contenu connexe

Plus de Sotrender

Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...
Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...
Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...Sotrender
 
Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]
Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]
Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]Sotrender
 
Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...
Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...
Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...Sotrender
 
Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...
Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...
Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...Sotrender
 
Sztuczna inteligencja w marketingu | Infoshare 2019
Sztuczna inteligencja w marketingu | Infoshare 2019Sztuczna inteligencja w marketingu | Infoshare 2019
Sztuczna inteligencja w marketingu | Infoshare 2019Sotrender
 
Pragmatic Machine Learning in Business
Pragmatic Machine Learning in BusinessPragmatic Machine Learning in Business
Pragmatic Machine Learning in BusinessSotrender
 
Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...
Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...
Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...Sotrender
 
Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...
Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...
Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...Sotrender
 
Obsługa klienta w social media
Obsługa klienta w social mediaObsługa klienta w social media
Obsługa klienta w social mediaSotrender
 
Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]
Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]
Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]Sotrender
 
Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...
Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...
Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...Sotrender
 
Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie?
Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie? Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie?
Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie? Sotrender
 
Mallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los Videos
Mallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los VideosMallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los Videos
Mallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los VideosSotrender
 
Kilka praktycznych sposobów na wykorzystanie danych z social media w marketingu
Kilka praktycznych sposobów na wykorzystanie danych z social media w marketinguKilka praktycznych sposobów na wykorzystanie danych z social media w marketingu
Kilka praktycznych sposobów na wykorzystanie danych z social media w marketinguSotrender
 
Pożrą, przeżują i wydalą - Google, Facebook i polskie biznesy internetowe
Pożrą, przeżują i wydalą - Google, Facebook i polskie biznesy internetowePożrą, przeżują i wydalą - Google, Facebook i polskie biznesy internetowe
Pożrą, przeżują i wydalą - Google, Facebook i polskie biznesy internetoweSotrender
 
Facebook w Polsce - podsumowanie 2016 r.
Facebook w Polsce  - podsumowanie 2016 r. Facebook w Polsce  - podsumowanie 2016 r.
Facebook w Polsce - podsumowanie 2016 r. Sotrender
 
Email marketing a media społecznościowe – czyli kim Są Twoi subskrybenci?
Email marketing a media społecznościowe – czyli kim Są Twoi subskrybenci?Email marketing a media społecznościowe – czyli kim Są Twoi subskrybenci?
Email marketing a media społecznościowe – czyli kim Są Twoi subskrybenci?Sotrender
 
YouTube w Polsce - podsumowanie 2016 r.
YouTube w Polsce - podsumowanie 2016 r.YouTube w Polsce - podsumowanie 2016 r.
YouTube w Polsce - podsumowanie 2016 r.Sotrender
 
Poznaj swojego odbiorcę - social media jako źródło wiedzy dla Twojej marki
Poznaj swojego odbiorcę - social media jako źródło wiedzy dla Twojej markiPoznaj swojego odbiorcę - social media jako źródło wiedzy dla Twojej marki
Poznaj swojego odbiorcę - social media jako źródło wiedzy dla Twojej markiSotrender
 
Twitter w Polsce – podsumowanie 2016 r.
Twitter w Polsce – podsumowanie 2016 r.Twitter w Polsce – podsumowanie 2016 r.
Twitter w Polsce – podsumowanie 2016 r.Sotrender
 

Plus de Sotrender (20)

Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...
Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...
Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...
 
Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]
Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]
Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]
 
Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...
Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...
Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...
 
Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...
Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...
Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...
 
Sztuczna inteligencja w marketingu | Infoshare 2019
Sztuczna inteligencja w marketingu | Infoshare 2019Sztuczna inteligencja w marketingu | Infoshare 2019
Sztuczna inteligencja w marketingu | Infoshare 2019
 
Pragmatic Machine Learning in Business
Pragmatic Machine Learning in BusinessPragmatic Machine Learning in Business
Pragmatic Machine Learning in Business
 
Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...
Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...
Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...
 
Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...
Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...
Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...
 
Obsługa klienta w social media
Obsługa klienta w social mediaObsługa klienta w social media
Obsługa klienta w social media
 
Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]
Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]
Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]
 
Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...
Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...
Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...
 
Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie?
Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie? Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie?
Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie?
 
Mallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los Videos
Mallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los VideosMallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los Videos
Mallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los Videos
 
Kilka praktycznych sposobów na wykorzystanie danych z social media w marketingu
Kilka praktycznych sposobów na wykorzystanie danych z social media w marketinguKilka praktycznych sposobów na wykorzystanie danych z social media w marketingu
Kilka praktycznych sposobów na wykorzystanie danych z social media w marketingu
 
Pożrą, przeżują i wydalą - Google, Facebook i polskie biznesy internetowe
Pożrą, przeżują i wydalą - Google, Facebook i polskie biznesy internetowePożrą, przeżują i wydalą - Google, Facebook i polskie biznesy internetowe
Pożrą, przeżują i wydalą - Google, Facebook i polskie biznesy internetowe
 
Facebook w Polsce - podsumowanie 2016 r.
Facebook w Polsce  - podsumowanie 2016 r. Facebook w Polsce  - podsumowanie 2016 r.
Facebook w Polsce - podsumowanie 2016 r.
 
Email marketing a media społecznościowe – czyli kim Są Twoi subskrybenci?
Email marketing a media społecznościowe – czyli kim Są Twoi subskrybenci?Email marketing a media społecznościowe – czyli kim Są Twoi subskrybenci?
Email marketing a media społecznościowe – czyli kim Są Twoi subskrybenci?
 
YouTube w Polsce - podsumowanie 2016 r.
YouTube w Polsce - podsumowanie 2016 r.YouTube w Polsce - podsumowanie 2016 r.
YouTube w Polsce - podsumowanie 2016 r.
 
Poznaj swojego odbiorcę - social media jako źródło wiedzy dla Twojej marki
Poznaj swojego odbiorcę - social media jako źródło wiedzy dla Twojej markiPoznaj swojego odbiorcę - social media jako źródło wiedzy dla Twojej marki
Poznaj swojego odbiorcę - social media jako źródło wiedzy dla Twojej marki
 
Twitter w Polsce – podsumowanie 2016 r.
Twitter w Polsce – podsumowanie 2016 r.Twitter w Polsce – podsumowanie 2016 r.
Twitter w Polsce – podsumowanie 2016 r.
 

Topic modeling - nie tylko LDA w Gensim

  • 1. Topic modeling - nie tylko LDA w Gensim Dominika Sagan Data Scientist, Sotrender www.WarszawskieDniInformatyki.pl
  • 2. 2 WHOAMI Dominika Sagan Data Scientist @ Sotrender d.sagan@sotrender.com
  • 3. 3 Topic Modeling - Wyodrębnienie tematów na podstawie zbioru dokumentów - Metody: LDA, LSA, pLSA, DMR, HDP, MG-LDA, PA, HPA, GSDMM… Source: https://hackernoon.com/nlp-101-topic-modeling-for-humans-part-1-a030e8155584
  • 4. 4 LDA Latent Dirichlet allocation podstawowe założenia: - Dokumenty są mieszanką tematów - tematy to zbiory słów - w zbiorze dokumentów jest ściśle określona liczba tematów source: http://www.cs.columbia.edu/~blei/papers/Blei2012.pdf
  • 5. 5 LDA - wybór liczby tematów ● Klasycznie -wykorzystać miary: - perplexity - Jaccard similarity - Coherence measure ● Wykorzystać wagi słów kluczowych w otrzymanych tematach: Temat 1. source: https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#17howtofindtheoptimalnumberoftopicsforlda
  • 6. 6 LDA Wyniki: 1. Tematy opisane przez słowa kluczowe 2. Dokumenty z przypisanym rozkładem temtów Doc Topic1: 0.1 , Topic2: 0.4 , Topic3: 0.2, ...
  • 7. 7 Gensim: - Biblioteka posiada implementacje metod topic modelingu: LSA, LDA - wiele przykładów zastosowania - pyLDAvis do wizualizacji source: https://www.researchgate.net/figure/pyLDAvis-Visualization-highlighting-relevant-keywords-for-a-Socio-Political-Issue-found_fig5_338948759
  • 8. 8 Tomotopy - Dostępne metody: - Latent Dirichlet Allocation (LDAModel) - Labeled LDA (LLDAModel) - Partially Labeled LDA (PLDAModel) - Supervised LDA (SLDAModel) - Dirichlet Multinomial Regression (DMRModel) - Generalized Dirichlet Multinomial Regression (GDMRModel) - ... source: https://bab2min.github.io/tomotopy/v0.10.2/en/
  • 9. 9 Tomotopy Czas procesowania 1000 dokumentów z angielskiej wikipedii (~1 500 000 słów), tomotopy -200 iteracji, a gensim -10 iteracji. - Dużo szybsza implementacja niż Gensim - Pozwala na szybkie testowanie i tworzenie rozwiązań https://bab2min.github.io/tomotopy/v0.10.2/en/#performance-of-tomotopy
  • 10. 10 LDA Zalety: - dobra “na start” - dużo dostępnych materiałów - dużo możliwości wizualizacji wyników - wynikiem jest rozkład tematów w dokumencie Wady: - im większy zbiór danych tym wolniejsze działanie - wybór parametru liczby tematów - założenie, że dokument jest mieszanką tematów nie ma sensu przy krótkich dokumentach
  • 11. 11 Dane z social media - Bardzo krótkie wypowiedzi (dokumenty) - Założenie, że dokument jest mieszanką kilku tematów często nie jest spełniony - zawierają emotki. - Analizowane zbiory często są bardzo duże [‘placek’, ‘ser’, ‘lubić’, ‘przepyszny’] [akurat, dziś, pozdrawiać, najcieplej, życzyć, dobry, popołudnie]
  • 12. 12 GSDMM Gibbs sampling algorithm for a Dirichlet Mixture Model - szybki - stworzony z myślą o krótkich dokumentach - zakłada że każdy dokument posiada 1 temat
  • 13. 13 GSDMM - Każdemu dokumentowi jest przypisany jeden temat - Każdy temat charakteryzowany jest przez najczęściej występujące słowa
  • 14. 14 Wybór liczby tematów - GSDMM: Można skorzystać z tych samych metod co przy LDA, albo: Stworzyć model ze zbyt dużą liczbą tematów i połączyć je ręcznie.
  • 15. 15 GSDMM Zalety: - przystosowany do krótkich tekstów - wynikiem jest przypisanie jednego tematu do dokumentu - szybki - nie ma potrzeby analizy wielu modeli o różnych liczbach tematów Wady: - wynikiem jest przypisanie jednego tematu do dokumentu - analiza i łączenie powstałych tematów może zająć dużo czas
  • 16. 16 Linki: - https://towardsdatascience.com/social-media-and-topic-modeli ng-how-to-analyze-posts-in-practice-d84fc0c613cb - pyLDAvis https://pyldavis.readthedocs.io/en/latest/readme.html# - Gensim LDA - https://radimrehurek.com/gensim/auto_examples/tutorials/run _lda.html - GSDMM - https://github.com/rwalk/gsdmm
  • 17. Dziękujemy za oglądanie! Zapraszamy do zadawania pytań oraz oceny prelekcji pod nagraniem. ↘ www.WarszawskieDniInformatyki.pl