1. Sis¨lt¨
a o
Tausta
Algoritmeja
Tulokset
T-61.2020:
Haku
verkosta
Janne Peltola
& Arto
Meril¨inen
a
Sis¨lt¨
a o T-61.2020:
Tausta
M¨¨ritelmi¨
aa a
Haku verkosta
Ongelma
Algoritmeja
HITS
PageRank Janne Peltola & Arto Meril¨inen
a
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
5.3.2008
Janne Peltola & Arto Meril¨inen
a T-61.2020: Haku verkosta
2. Sis¨lt¨
a o
Tausta
Algoritmeja
Tulokset
T-61.2020:
Haku
verkosta
Janne Peltola 1 Tausta
& Arto
Meril¨inen
a M¨¨ritelmi¨
aa a
Sis¨lt¨
a o
Ongelma
Tausta
M¨¨ritelmi¨
aa a
Ongelma 2 Algoritmeja
Algoritmeja HITS
HITS
PageRank PageRank
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
3 Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
Janne Peltola & Arto Meril¨inen
a T-61.2020: Haku verkosta
3. Sis¨lt¨
a o
Tausta M¨¨ritelmi¨
aa a
Algoritmeja Ongelma
Tulokset
T-61.2020:
Haku
verkosta
Verkko
Janne Peltola
& Arto
Meril¨inen
a
Verkko on pari (V , E ), miss¨ V sis¨lt¨¨ verkon solmut ja E
a a aa
Sis¨lt¨
a o verkon kaaret. Kaari yhdist¨¨ kaksi solmua. Verkko on
aa
Tausta
M¨¨ritelmi¨
aa a
suunnattu, jos kaari on j¨rjestetty pari.
a
Ongelma
Algoritmeja
HITS
PageRank
Verkoilla voidaan mallintaa
Tulokset • topologiaa (tiekartta)
Kuvat
Johtop¨¨t¨kset
aa o
• vuorovaikutussuhteita (sosiaaliset verkostot)
• riippuvuussuhteita (projektin teht¨v¨verkko)
a a
• todenn¨k¨isyysjakaumia (Bayes-verkot)
a o
• ...
Janne Peltola & Arto Meril¨inen
a T-61.2020: Haku verkosta
4. Sis¨lt¨
a o
Tausta M¨¨ritelmi¨
aa a
Algoritmeja Ongelma
Tulokset
T-61.2020:
Haku
verkosta
Haku verkosta
Janne Peltola
& Arto
Meril¨inen
a
Sis¨lt¨
a o
Tausta Haluamme l¨yt¨¨ verkosta tiettyj¨ ehtoja vastaavan solmun.
o aa a
M¨¨ritelmi¨
aa a
Ongelma T¨ss¨ tapauksessa verkko on WWW, eli haluamme l¨yt¨¨
a a o aa
Algoritmeja verkkosivun, joka:
HITS
PageRank
Tulokset
• sis¨lt¨¨ hakutermin ja
a aa
Kuvat
Johtop¨¨t¨kset
aa o
• on semanttisesti olennainen.
Ongelman ratkaisee mm. Google...
Janne Peltola & Arto Meril¨inen
a T-61.2020: Haku verkosta
5. Sis¨lt¨
a o
Tausta M¨¨ritelmi¨
aa a
Algoritmeja Ongelma
Tulokset
T-61.2020:
Haku
verkosta
Aineisto
Janne Peltola
& Arto
Meril¨inen
a
Vuoden 2004 presidentinvaaleissa ker¨ttiin poliittisten blogien
a
Sis¨lt¨
a o
Tausta
keskustelusta aineisto:
M¨¨ritelmi¨
aa
Ongelma
a
• sivujen A ja B v¨lill¨ on kaari, jos A viittaa B:hen
a a
Algoritmeja • kaaret ovat suunnattuja (A viittaa B:hen)
HITS
PageRank
• blogit luokitellaan oikeisto-vasemmistoakselilla
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
Janne Peltola & Arto Meril¨inen
a T-61.2020: Haku verkosta
6. Sis¨lt¨
a o
Tausta M¨¨ritelmi¨
aa a
Algoritmeja Ongelma
Tulokset
T-61.2020:
Haku
verkosta
Aineisto
Janne Peltola
& Arto
Meril¨inen
a
Vuoden 2004 presidentinvaaleissa ker¨ttiin poliittisten blogien
a
Sis¨lt¨
a o
Tausta
keskustelusta aineisto:
M¨¨ritelmi¨
aa
Ongelma
a
• sivujen A ja B v¨lill¨ on kaari, jos A viittaa B:hen
a a
Algoritmeja • kaaret ovat suunnattuja (A viittaa B:hen)
HITS
PageRank
• blogit luokitellaan oikeisto-vasemmistoakselilla
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
Mill¨ blogeilla on
a
auktoriteettia?
Janne Peltola & Arto Meril¨inen
a T-61.2020: Haku verkosta
7. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
Keskukset ja auktoriteetit
Janne Peltola
& Arto
Meril¨inen
a
Sis¨lt¨
a o
Tausta
M¨¨ritelmi¨
aa a
Ongelma • Jaetaan verkon solmut keskuksiin ja auktoriteetteihin
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
Janne Peltola & Arto Meril¨inen
a T-61.2020: Haku verkosta
8. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
Keskukset ja auktoriteetit
Janne Peltola
& Arto
Meril¨inen
a
Sis¨lt¨
a o
Tausta
M¨¨ritelmi¨
aa a
Ongelma • Jaetaan verkon solmut keskuksiin ja auktoriteetteihin
Algoritmeja
HITS
• Hyv¨ keskus viittaa moniin auktoriteetteihin
a
PageRank
Tulokset
• Moni keskus viittaa hyv¨¨n auktoriteettiin
aa
Kuvat
Johtop¨¨t¨kset
aa o
Janne Peltola & Arto Meril¨inen
a T-61.2020: Haku verkosta
9. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
Keskukset ja auktoriteetit
Janne Peltola
& Arto
Meril¨inen
a
Sis¨lt¨
a o
Tausta
M¨¨ritelmi¨
aa a
Ongelma • Jaetaan verkon solmut keskuksiin ja auktoriteetteihin
Algoritmeja
HITS
• Hyv¨ keskus viittaa moniin auktoriteetteihin
a
PageRank
Tulokset
• Moni keskus viittaa hyv¨¨n auktoriteettiin
aa
Kuvat
Johtop¨¨t¨kset
aa o • Kyseess¨ on keh¨m¨¨ritelm¨
a a aa a
Janne Peltola & Arto Meril¨inen
a T-61.2020: Haku verkosta
10. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
HITS (1/2)
Janne Peltola
& Arto
Meril¨inen
a
Sis¨lt¨
a o
M¨¨ritell¨¨n kaksi operaatiota:
aa aa
Tausta
p q
M¨¨ritelmi¨
aa
Ongelma
a I:x ←− y (1)
Algoritmeja q:(q,p)∈E
HITS
p q
PageRank O:y ←− x (2)
Tulokset
Kuvat
q:(p,q)∈E
Johtop¨¨t¨kset
aa o
• I: auktoriteetti syntyy viereisist¨ keskuksista
a
• O: keskeisyys syntyy auktoriteetista
Janne Peltola & Arto Meril¨inen
a T-61.2020: Haku verkosta
11. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
HITS (2/2)
Janne Peltola
& Arto
Meril¨inen
a Input: Verkko G , k ∈ N
Sis¨lt¨
a o
Output: x v = xk , y v = yk
Tausta
z = (1, 1, ..., 1) ∈ Rn ;
M¨¨ritelmi¨
aa
Ongelma
a x0 ← z;
Algoritmeja y0 ← z;
HITS
PageRank
for i ← 1 to k do
Tulokset xi ← I(xi−1 , yi−1 );
Kuvat
Johtop¨¨t¨kset
aa o yi ← O(xi , yi−1 );
xi ← Normalisoi (xi );
yi ← Normalisoi (yi );
end
Ratkaistavissa my¨s lineaarialgebralla!
o
Janne Peltola & Arto Meril¨inen
a T-61.2020: Haku verkosta
12. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
Satunnainen surffaaja
Janne Peltola
& Arto
Meril¨inen
a
Sis¨lt¨
a o
• Oletetaan satunnainen
Tausta
surffaaja
M¨¨ritelmi¨
aa a
Ongelma
A _@ /B /C
Algoritmeja
@@ ?
HITS
@@ ~~
PageRank
@@ ~~~
Tulokset ~~
Kuvat
D /E
Johtop¨¨t¨kset
aa o
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta
13. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
Satunnainen surffaaja
Janne Peltola
Arto
Meril¨inen
a
Sis¨lt¨
a o
• Oletetaan satunnainen
Tausta
surffaaja
M¨¨ritelmi¨
aa a
Ongelma • Surffaaja siirtyy
satunnaiselle linkitetylle A _@ /B /C
Algoritmeja
@@ ?
HITS
@@ ~~
PageRank sivulle
@@ ~~~
Tulokset ~~
Kuvat
D /E
Johtop¨¨t¨kset
aa o
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta
14. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
Satunnainen surffaaja
Janne Peltola
Arto
Meril¨inen
a
Sis¨lt¨
a o
• Oletetaan satunnainen
Tausta
surffaaja
M¨¨ritelmi¨
aa a
Ongelma • Surffaaja siirtyy
satunnaiselle linkitetylle A _@ /B /C
Algoritmeja
@@ ?
HITS
@@ ~~
PageRank sivulle
@@ ~~~
Tulokset
• Surffaaja saattaa tylsisty¨
a ~~
Kuvat
D /E
Johtop¨¨t¨kset
aa o
ja pompata jonnekin
aivan muualle
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta
15. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
Satunnainen surffaaja
Janne Peltola
Arto
Meril¨inen
a
Sis¨lt¨
a o
• Oletetaan satunnainen
Tausta
surffaaja
M¨¨ritelmi¨
aa a
Ongelma • Surffaaja siirtyy
satunnaiselle linkitetylle A _@ /B /C
Algoritmeja
@@ ?
HITS
@@ ~~
PageRank sivulle
@@ ~~~
Tulokset
• Surffaaja saattaa tylsisty¨
a ~~
Kuvat
D /E
Johtop¨¨t¨kset
aa o
ja pompata jonnekin
aivan muualle
• Mihin surffaaja
todenn¨k¨isesti p¨¨tyy?
a o aa
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta
16. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
PageRank
Janne Peltola
Arto
Meril¨inen
a
Sis¨lt¨
a o
• Aluksi jokainen sivu on yht¨ todenn¨k¨inen
a a o
Tausta
M¨¨ritelmi¨
aa a
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta
17. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
PageRank
Janne Peltola
Arto
Meril¨inen
a
Sis¨lt¨
a o
• Aluksi jokainen sivu on yht¨ todenn¨k¨inen
a a o
Tausta • Todenn¨k¨isyys virtaa linkkien kautta
a o
M¨¨ritelmi¨
aa a
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta
18. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
PageRank
Janne Peltola
Arto
Meril¨inen
a
Sis¨lt¨
a o
• Aluksi jokainen sivu on yht¨ todenn¨k¨inen
a a o
Tausta • Todenn¨k¨isyys virtaa linkkien kautta
a o
M¨¨ritelmi¨
aa a
Ongelma
• Paljon linkkej¨ → korkea todenn¨k¨isyys
a a o
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta
19. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
PageRank
Janne Peltola
Arto
Meril¨inen
a
Sis¨lt¨
a o
• Aluksi jokainen sivu on yht¨ todenn¨k¨inen
a a o
Tausta • Todenn¨k¨isyys virtaa linkkien kautta
a o
M¨¨ritelmi¨
aa a
Ongelma
• Paljon linkkej¨ → korkea todenn¨k¨isyys
a a o
Algoritmeja
HITS • Umpikuja → siirtym¨ minne vain
a
PageRank
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta
20. Sis¨lt¨
a o
Tausta HITS
Algoritmeja PageRank
Tulokset
T-61.2020:
Haku
verkosta
PageRank
Janne Peltola
Arto
Meril¨inen
a
Sis¨lt¨
a o
• Aluksi jokainen sivu on yht¨ todenn¨k¨inen
a a o
Tausta • Todenn¨k¨isyys virtaa linkkien kautta
a o
M¨¨ritelmi¨
aa a
Ongelma
• Paljon linkkej¨ → korkea todenn¨k¨isyys
a a o
Algoritmeja
HITS • Umpikuja → siirtym¨ minne vain
a
PageRank
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
1−d PR(a)
PR(x) = +d , (3)
N L(a)
a:(a,x)∈V
Rekursiivinen yht¨l¨ ratkaistaan joko iteratiivisesti tai
ao
lineaarialgebralla.
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta
21. Sis¨lt¨
a o
Tausta Kuvat
Algoritmeja Johtop¨¨t¨kset
aa o
Tulokset
T-61.2020:
Haku
verkosta
PageRank
Janne Peltola
Arto
Meril¨inen
a
Sis¨lt¨
a o
Tausta
M¨¨ritelmi¨
aa a
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta
22. Sis¨lt¨
a o
Tausta Kuvat
Algoritmeja Johtop¨¨t¨kset
aa o
Tulokset
T-61.2020:
Haku
verkosta
HITS
Janne Peltola
Arto
Meril¨inen
a
Sis¨lt¨
a o
Tausta
M¨¨ritelmi¨
aa a
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtop¨¨t¨kset
aa o
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta
23. Sis¨lt¨
a o
Tausta Kuvat
Algoritmeja Johtop¨¨t¨kset
aa o
Tulokset
T-61.2020:
Haku
verkosta
Johtop¨¨t¨ksi¨
aa o a
Janne Peltola
Arto
Meril¨inen
a
Sis¨lt¨
a o
Tausta
• HITS- ja PageRank-arvojen korrelaatio olematonta (-0,01
M¨¨ritelmi¨
aa
Ongelma
a
ja 0,03)
Algoritmeja • PageRank-tulokset luontevia
HITS
PageRank
• HITS tuntuu nostavan esiin aggregaattoreita
Tulokset
Kuvat • Vahva korrelaatio hubien ja auktoriteettien v¨lill¨ (0,70)
a a
Johtop¨¨t¨kset
aa o
• Outo havainto: auktoriteettien ja out-degreen korrelaatio
0,48
Janne Peltola Arto Meril¨inen
a T-61.2020: Haku verkosta