Modele do rozpoznawania obrazów i wykrywania tekstów i obiektów na zdjęciach rozwijają się już od dłuższego czasu. Jednak z różnych przyczyn ich dostępność oraz możliwości skorzystania mogą być ograniczone. Mogą to być koszty użycia (na przykład ze względu na dostęp do mocy obliczeniowej), brak danych treningowych czy też brak umiejętności technicznych badacza. Do przeprowadzenia badania może też nie być wystarczająco dużo czasu, aby budować i trenować modele. Aby minimalizować czas oraz koszt prowadzenia badania możliwe jest korzystanie z istniejących już narzędzi, np. Google Vision API. Za jego pomocą możliwe jest szybkie oraz wygodne rozpoznawanie obrazów, wykrywanie znajdujących się na nim obiektów, krajobrazów, ludzi oraz zwierząt a także tekstów umieszczonych na zdjęciach. Dzięki korzystaniu z takich rozwiązań nie jest wymagane posiadanie modeli treningowych ani dostępu do mocy obliczeniowej. Google Vision API oferuje zaawansowane, wstępnie przeszkolone modele uczenia maszynowego za pośrednictwem interfejsów API RST i RPC. Dzięki temu analityk może odpytać API o interesujące go rzeczy i następnie przejść do prowadzenia badania. Z możliwości Google Vision API można skorzystać także przy wykorzystaniu języka R dzięki pakietowi google Cloud Vision R. W wystąpieniu zostaną zaprezentowane metody wykorzystania opisanych powyżej narzędzi. Zostanie przeprowadzone studium przypadku – przeprowadzenie rozpoznawania tekstów, osób oraz zawartości obrazów na zdjęciach wykorzystywanych w reklamach politycznych na Facebooku w trakcie trwania kampanii prezydenckiej. Dzięki możliwościom rozpoznawania tekstu możliwe jest przeanalizowanie treści umieszczonych na zdjęciach w postach sponsorowanych oraz przeanalizowanie najpopularniejszych haseł wykorzystywanych przez poszczególnych kandydatów, a dzięki wykrywaniu znajdujących się na grafice obiektów – możliwe jest sprawdzenie w jakim kontekście te hasła występują. W wyniku otwarcia przez Facebook Biblioteki Reklam badacze, dziennikarze oraz opinia publiczna otrzymali dostęp do nowego narzędzia, które zwiększa przejrzystość targetowanych treści politycznych. Jednak aby kontrolować i weryfikować reklamy polityczne, badacze muszą korzystać z odpowiednich narzędzi. Nie posiadając wytrenowanych wcześniej modeli badacz może sięgnąć właśnie po gotowe rozwiązanie, jakim jest Google Vision API.
2. AGENDA
Biblioteka reklam Facebooka – łączenie się z Facebook Graph
API, tworzenie zapytań oraz możliwe dane do uzyskania
Google Vision – model Google do rozpoznawania obiektów oraz
tekstów na obrazach
„googleCloudVisionR” – korzystanie z modeli Google w R
Studium przypadku – analiza reklam opublikowanych na
stronach Andrzeja Dudy i Rafała Trzaskowskiego w trakcie
trwania kampanii prezydenckiej 2020
4. BIBLIOTEKA REKLAM FACEBOOKA
Biblioteka reklam (wcześniej – Archiwum reklamowe) zostało
udostępnione w 2018 roku
Powstanie Biblioteki reklam było powiązane z kampanią
prezydencką Donalda Trumpa w 2016 roku i wielu
wątpliwościami powiązanymi z podmiotami które miały na nią
wpływ
Celem wprowadzenia Biblioteki reklam Facebooka było
zapobieganie nadużywania reklam do rozpowszechniania
błędnych informacji, zaostrzania polaryzacji czy zniechęcania
do głosowania w wyborach.
5. 5 FAKTÓW O BIBLIOTECE REKLAM FACEBOOKA
W Bibliotece reklam znajdują się wszystkie aktywne reklamy
stron, a w przypadku reklam politycznych (lub powiązanych)
również reklamy już nieaktywne.
Strony promujące treści polityczne oraz społeczne muszą
przejść proces weryfikacji.
Zweryfikowani reklamodawcy mogą publikować reklamy jedynie
w kraju, w którym pozytywnie przeszli proces autoryzacji.
Reklamy polityczne są opatrzone etykietą “Opłacone przez” oraz
zawierają szczegółowe informacje dot. samej reklamy (np. liczbę
wyświetleń czy budżet).
Wprowadzenie Biblioteki reklam oznacza rozszerzone
możliwości dla marketerów w kontekście monitorowania
bieżących działań reklamowych konkurencji.
6. GOOGLE VISION W R
Model Google do rozpoznawania tekstów i
obiektów na obrazach oraz korzystanie z modelu
w R
7. GOOGLE VISION
Google Vision to zaawansowane, wstępnie
przeszkolone modele uczenia maszynowego, które są
dostępne za pośrednictwem interfejsów API.
Umożliwia wykrywanie obiektów, twarzy oraz tekstów
umieszczanych na obrazach
Szybkie – wytrenowane modele gotowe do działania
Tanie – 1000 zapytań API w miesiącu jest darmowe,
300$ na okres testów, każde następne 1000 zapytań od
1$ do 3.5$ (w zależności od liczby zapytań oraz rodzaju
zapytania)
Dokumentacja: https://cloud.google.com/vision/pricing
8. MOŻLIWE OBIEKTY DO WYKRYCIA NA OBRAZACH PRZY
WYKORZYSTANIU GOOGLE VISION
LABEL_DETECTION – etykiety zawartości obrazu
TEXT_DETECTION – wykrywanie tekstu na obrazach
FACE_DETECTION – wykrywanie twarzy na obrazach
LANDMARK_DETECTION – wykrywanie krajobrazu na
obrazach (tj. rzeka, góry, etc.)
LOGO_DETECTION – wykrywanie loga marki na obrazach
IMAGE_PROPERTIES – wykrywanie rozmiaru obrazu oraz
występujących kolorów
WEB_DETECTION – wykrywanie obiektów na obrazach oraz
występowanie ich w wyszukiwarce Google
9. ANALIZA REKLAM
OPUBLIKOWANYCH NA STRONACH
ANDRZEJA DUDY I RAFAŁA
TRZASKOWSKIEGO
Okres analizy: od 1 czerwca do 10 lipca 2020 roku
10. LICZBA REKLAM OPUBLIKOWANYCH NA
STRONACH OBU KANDYDATÓW
• W okresie od 1 czerwca
do 10 lipca na stronie
Andrzeja Dudy pojawiło
się ponad 8 razy więcej
reklam niż na stronie
Rafała Trzaskowskiego
11. LICZBA REKLAM Z WYKORZYSTANYMI OBRAZAMI
• Na stronach obu
kandydatów dominowały
reklamy w których w
treści użyto obrazy. Na
stronie Andrzeja Dudy w
badanym okresie tego
typu reklamy stanowiły
97% wszystkich płatnych
postów, natomiast na
stronie Rafała
Trzaskowskiego – 88%.
12. WYKRYTE ELEMENTY NA KREACJACH
OPUBLIKOWANYCH NA STRONIE ANDRZEJA DUDY
• Najczęstszym wykrywanym
elementem na analizowanych
obrazach w kreacjach
opublikowanych na stronie
Andrzeja Dudy były umieszczane
na nich teksty.
• Kolejne często powtarzające się
elementy to człowiek biznesu,
rzecznik prasowy, garnitur, ubiór
formalny.
13. WYKRYTE ELEMENTY NA KREACJACH OPUBLIKOWANYCH
NA STRONIE RAFAŁA TRZASKOWSKIEGO
• Podobnie jak w przypadku kreacji
opublikowanych na stronie Andrzeja Dudy,
najczęściej wykrywanym elementem na
obrazach reklam umieszczonych na stronie
Rafała Trzaskowskiego były teksty bądź
hasła.
• Podobnie jak w przypadku kontrkandydata,
główne elementy reklam to osoba ubrana w
garnitur (ubiór formalny). Na kreacjach
Rafała Trzaskowskiego częściej pojawiały się
takie rzeczy jak niebo, gestykulacja czy tłum.
• Warto zwrócić uwagę na to, że w przypadku
reklam Rafała Trzaskowskiego model zwrócił
uwagę na posiadaną przez tego kandydata
brodę (chin).
14. CHMURA SŁÓW WYKRYTYCH NA KREACJACH
OPUBLIKOWANYCH NA STRONIE ANDRZEJA DUDY
• Najczęściej występującym słowem
na kreacjach opublikowanych na
stronie Andrzeja Dudy było słowo
DUDA. Kolejne popularne
sformułowania to prezydent, 2020,
wybory, 380 powiatów, obronimy,
eksperymenty, plus.
• Są to słowa powiązane z wyborami,
zachęcające odbiorców reklam do
pójścia na wybory i oddania głosu na
danego kandydata. Słowa powiązane
z hasłami wyborczymi (jak plus, czy
plan dudy) występowały
zdecydowanie rzadziej.
15. TOP 20 NAJCZĘŚCIEJ WYSTĘPUJĄCYCH SŁÓW
WYSTĘPUJĄCYCH NA KREACJACH OPUBLIKOWANYCH
NA STRONIE ANDRZEJA DUDY
Wykryty tekst
Liczba
wystąpień
Procentowy
udział w postach
DUDA 1298 98%
2020 1122 85%
PREZYDENT 484 37%
POLSKICH 387 29%
SPRAW 386 29%
LIPCA 357 27%
POLSKĘ 341 26%
IDZIEMY 340 26%
OBRONIMY 340 26%
PLUS 340 26%
Dziękuję, 328 25%
380powiatów 327 25%
WYBORY! 300 23%
#DUDA2020 170 13%
WYBIERAM 164 12%
NIE 128 1%
CZAS 114 0.8%
ANDRZEJ 111 0.8%
EKSPERYMENTY 91 0.7%
PLATFORMY 67 0.5%
• Tabela prezentuje top 20
najczęściej występujących słów
wykrytych na kreacjach
opublikowanych na stronie
Andrzeja Dudy.
• Słowa te są powiązane głównie
z osobą Andrzeja Dudy oraz
wezwaniem wyborców do
oddania głosu na kandydata.
• Wśród najczęściej
występujących haseł pojawiały
się słowa odnoszące się do
konkurencji („Platforma”). Były
one jednak wykorzystywane
stosunkowo rzadko w stosunku
do wszystkich opublikowanych
płatnych kreacji.
16. PRZYKŁADY PŁATNYCH REKLAM OPUBLIKOWANYCH NA
STRONIE ANDRZEJA DUDY
id: 1017008805383896
id: 1028104147586337
id: 1147263045656931 id: 1128813300834107
id: 1007049849715332
17. CHMURA SŁÓW WYKRYTYCH NA KREACJACH
OPUBLIKOWANYCH NA STRONIE RAFAŁA
TRZASKOWSKIEGO
• W odróżnieniu od kreacji
opublikowanych na stronie Andrzeja
Dudy, reklamy umieszczone na profilu
Rafała Trzaskowskiego w większym
stopniu podkreślały jego kandydaturę
na urząd prezydenta. Imię i nazwisko
kandydata częściej pojawiało się razem
z słowami takimi jak kandydat czy
prezydent niż samodzielnie (jak to
miało miejsce na kreacjach Andrzeja
Dudy).
• Podobnie jak na reklam
opublikowanych na stronie Andrzeja
Dudy, w tekstach reklam Rafała
Trzaskowskiego można było odnaleźć
niewielką liczbę słów powiązanych z
programem kandydata.
18. TOP 20 NAJCZĘŚCIEJ WYSTĘPUJĄCYCH SŁÓW
WYSTĘPUJĄCYCH NA KREACJACH OPUBLIKOWANYCH
NA STRONIE RAFAŁA TRZASKOWSKIEGO
Wykryty tekst Liczba wystąpień
Procentowy udział
w postach
Prezydenta 91 58%
Rzeczypospolitej 83 53%
TRZASKOWSKI 83 53%
RAFAŁ 80 51%
Kandydata 77 49%
Trzaskowskiego 64 41%
Polskiej 58 37%
Trzaskowski 48 31%
Rafał 46 29%
godz. 42 27%
Prosimy 42 27%
czerwca 41 26%
Rafala 41 26%
transmisję 39 25%
Zapraszamy 39 25%
dla 38 24%
zachowaniu 38 24%
Rafata 37 24%
rafal.trzaskowski 34 22%
Poiskiej 30 19%
• Wśród najczęściej występujących
słów wykrytych na kreacjach
opublikowanych na stronie Rafała
Trzaskowskiego najczęściej
pojawiało się jego nazwisko w
różnej formie. Warto zwrócić
uwagę, że nazwa urzędu, na który
kandydował pojawiała się równie
często co jego nazwisko/imię.
• Dodatkowo na reklamach
pojawiały się wezwania do
oglądania transmisji czy
bezpośrednie linki do profilu
kandydata na Facebooku
(rafal.trzaskowski).
19. PRZYKŁADY PŁATNYCH REKLAM OPUBLIKOWANYCH NA
STRONIE RAFAŁA TRZASKOWSKIEGO
id: 1075428106186341 id: 1529732540540690
id: 262590958356325 id: 2945062568948198
id: 278527006802297
20. STUDIUM PRZYPADKU - PODSUMOWANIE
W ostatnim okresie prowadzonej kampanii obaj kandydaci skupiali się w
znacznym stopniu na prezentowaniu swojego wizerunku. Na kreacjach
publikowanych reklam w większości wypadków pojawiała się osoba ubrana w
strój formalny (garnitur).
Kreacje publikowane na stronie Andrzeja Dudy były bardziej statyczne.
Natomiast wśród obrazów umieszczanych na kreacjach na stronie Rafała
Trzaskowskiego można było odnaleźć większą liczbę gestów czy kreacji
których tło tworzyło niebo (otwarta przestrzeń).
W przypadku obu kandydatów model wykrywał zdarzenia - „event” –
kandydata w otoczeniu ludzi, na wiecu.
Kreacje opublikowane na stronie Andrzeja Dudy w większym stopniu
prezentowały same nazwisko kandydata, podczas gdy nazwisko Rafała
Trzaskowskiego częściej można było obserwować w otoczeniu nazwy urzędu
na który kandydował.
21. PODSUMOWANIE
Biblioteka reklam Facebooka to wyjątkowy zbiór
danych o emitowanych reklamach. Pozwala uzyskać
informacje na temat zasięgów, grupy docelowej,
wyświetleń czy wydatków reklamowych
poszczególnych kreacji bądź stron.
Zdecydowana większość kreacji jest tworzona przy
wykorzystaniu obrazów. Sama treść reklamy jest
niewystarczająca do analizy, bowiem wykorzystany
obraz i występujący na nim tekst to integralna część
emitowanej reklamy.
Szybko i relatywnie niskim kosztem możliwe jest
badanie obrazów przy wykorzystaniu Google Vision.