SlideShare une entreprise Scribd logo
1  sur  23
Télécharger pour lire hors ligne
Sis¨lt¨
                                             a o
                                         Tausta
                                     Algoritmeja
                                        Tulokset

 T-61.2020:
   Haku
  verkosta

Janne Peltola
   & Arto
 Meril¨inen
      a


Sis¨lt¨
   a o                                       T-61.2020:
Tausta
M¨¨ritelmi¨
 aa       a
                                            Haku verkosta
Ongelma

Algoritmeja
HITS
PageRank                         Janne Peltola & Arto Meril¨inen
                                                           a
Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o


                                                    5.3.2008




                 Janne Peltola & Arto Meril¨inen
                                           a         T-61.2020: Haku verkosta
Sis¨lt¨
                                                  a o
                                              Tausta
                                          Algoritmeja
                                             Tulokset

 T-61.2020:
   Haku
  verkosta

Janne Peltola    1 Tausta
   & Arto
 Meril¨inen
      a              M¨¨ritelmi¨
                      aa       a
Sis¨lt¨
   a o
                     Ongelma
Tausta
M¨¨ritelmi¨
 aa       a
Ongelma          2 Algoritmeja
Algoritmeja          HITS
HITS
PageRank             PageRank
Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o
                 3 Tulokset
                     Kuvat
                     Johtop¨¨t¨kset
                           aa o




                      Janne Peltola & Arto Meril¨inen
                                                a        T-61.2020: Haku verkosta
Sis¨lt¨
                                                  a o
                                              Tausta     M¨¨ritelmi¨
                                                          aa       a
                                          Algoritmeja    Ongelma
                                             Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                                    Verkko
Janne Peltola
   & Arto
 Meril¨inen
      a
                 Verkko on pari (V , E ), miss¨ V sis¨lt¨¨ verkon solmut ja E
                                              a      a aa
Sis¨lt¨
   a o           verkon kaaret. Kaari yhdist¨¨ kaksi solmua. Verkko on
                                             aa
Tausta
M¨¨ritelmi¨
 aa       a
                 suunnattu, jos kaari on j¨rjestetty pari.
                                          a
Ongelma

Algoritmeja
HITS
PageRank
                 Verkoilla voidaan mallintaa
Tulokset           • topologiaa (tiekartta)
Kuvat
Johtop¨¨t¨kset
      aa o
                   • vuorovaikutussuhteita (sosiaaliset verkostot)
                   • riippuvuussuhteita (projektin teht¨v¨verkko)
                                                       a a
                   • todenn¨k¨isyysjakaumia (Bayes-verkot)
                           a o
                   • ...


                      Janne Peltola & Arto Meril¨inen
                                                a        T-61.2020: Haku verkosta
Sis¨lt¨
                                                  a o
                                              Tausta     M¨¨ritelmi¨
                                                          aa       a
                                          Algoritmeja    Ongelma
                                             Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                       Haku verkosta
Janne Peltola
   & Arto
 Meril¨inen
      a


Sis¨lt¨
   a o

Tausta           Haluamme l¨yt¨¨ verkosta tiettyj¨ ehtoja vastaavan solmun.
                             o aa                a
M¨¨ritelmi¨
 aa       a
Ongelma          T¨ss¨ tapauksessa verkko on WWW, eli haluamme l¨yt¨¨
                  a a                                               o aa
Algoritmeja      verkkosivun, joka:
HITS
PageRank

Tulokset
                   • sis¨lt¨¨ hakutermin ja
                        a aa
Kuvat
Johtop¨¨t¨kset
      aa o
                   • on semanttisesti olennainen.

                 Ongelman ratkaisee mm. Google...




                      Janne Peltola & Arto Meril¨inen
                                                a        T-61.2020: Haku verkosta
Sis¨lt¨
                                                  a o
                                              Tausta     M¨¨ritelmi¨
                                                          aa       a
                                          Algoritmeja    Ongelma
                                             Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                                Aineisto
Janne Peltola
   & Arto
 Meril¨inen
      a
                 Vuoden 2004 presidentinvaaleissa ker¨ttiin poliittisten blogien
                                                     a
Sis¨lt¨
   a o

Tausta
                 keskustelusta aineisto:
M¨¨ritelmi¨
 aa
Ongelma
          a
                   • sivujen A ja B v¨lill¨ on kaari, jos A viittaa B:hen
                                     a a
Algoritmeja        • kaaret ovat suunnattuja (A viittaa B:hen)
HITS
PageRank
                   • blogit luokitellaan oikeisto-vasemmistoakselilla
Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o




                      Janne Peltola & Arto Meril¨inen
                                                a        T-61.2020: Haku verkosta
Sis¨lt¨
                                                  a o
                                              Tausta     M¨¨ritelmi¨
                                                          aa       a
                                          Algoritmeja    Ongelma
                                             Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                                Aineisto
Janne Peltola
   & Arto
 Meril¨inen
      a
                 Vuoden 2004 presidentinvaaleissa ker¨ttiin poliittisten blogien
                                                     a
Sis¨lt¨
   a o

Tausta
                 keskustelusta aineisto:
M¨¨ritelmi¨
 aa
Ongelma
          a
                   • sivujen A ja B v¨lill¨ on kaari, jos A viittaa B:hen
                                     a a
Algoritmeja        • kaaret ovat suunnattuja (A viittaa B:hen)
HITS
PageRank
                   • blogit luokitellaan oikeisto-vasemmistoakselilla
Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o




                 Mill¨ blogeilla on
                     a
                 auktoriteettia?
                      Janne Peltola & Arto Meril¨inen
                                                a        T-61.2020: Haku verkosta
Sis¨lt¨
                                               a o
                                           Tausta     HITS
                                       Algoritmeja    PageRank
                                          Tulokset

 T-61.2020:
   Haku
  verkosta
                                            Keskukset ja auktoriteetit
Janne Peltola
   & Arto
 Meril¨inen
      a


Sis¨lt¨
   a o

Tausta
M¨¨ritelmi¨
 aa       a
Ongelma          • Jaetaan verkon solmut keskuksiin ja auktoriteetteihin
Algoritmeja
HITS
PageRank

Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o




                   Janne Peltola & Arto Meril¨inen
                                             a        T-61.2020: Haku verkosta
Sis¨lt¨
                                               a o
                                           Tausta     HITS
                                       Algoritmeja    PageRank
                                          Tulokset

 T-61.2020:
   Haku
  verkosta
                                            Keskukset ja auktoriteetit
Janne Peltola
   & Arto
 Meril¨inen
      a


Sis¨lt¨
   a o

Tausta
M¨¨ritelmi¨
 aa       a
Ongelma          • Jaetaan verkon solmut keskuksiin ja auktoriteetteihin
Algoritmeja
HITS
                 • Hyv¨ keskus viittaa moniin auktoriteetteihin
                      a
PageRank

Tulokset
                 • Moni keskus viittaa hyv¨¨n auktoriteettiin
                                          aa
Kuvat
Johtop¨¨t¨kset
      aa o




                   Janne Peltola & Arto Meril¨inen
                                             a        T-61.2020: Haku verkosta
Sis¨lt¨
                                               a o
                                           Tausta     HITS
                                       Algoritmeja    PageRank
                                          Tulokset

 T-61.2020:
   Haku
  verkosta
                                            Keskukset ja auktoriteetit
Janne Peltola
   & Arto
 Meril¨inen
      a


Sis¨lt¨
   a o

Tausta
M¨¨ritelmi¨
 aa       a
Ongelma          • Jaetaan verkon solmut keskuksiin ja auktoriteetteihin
Algoritmeja
HITS
                 • Hyv¨ keskus viittaa moniin auktoriteetteihin
                      a
PageRank

Tulokset
                 • Moni keskus viittaa hyv¨¨n auktoriteettiin
                                          aa
Kuvat
Johtop¨¨t¨kset
      aa o       • Kyseess¨ on keh¨m¨¨ritelm¨
                          a       a aa      a




                   Janne Peltola & Arto Meril¨inen
                                             a        T-61.2020: Haku verkosta
Sis¨lt¨
                                                  a o
                                              Tausta      HITS
                                          Algoritmeja     PageRank
                                             Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                          HITS (1/2)
Janne Peltola
   & Arto
 Meril¨inen
      a


Sis¨lt¨
   a o
                 M¨¨ritell¨¨n kaksi operaatiota:
                  aa      aa
Tausta
                                                  p                           q
M¨¨ritelmi¨
 aa
Ongelma
          a                             I:x              ←−               y            (1)
Algoritmeja                                                   q:(q,p)∈E
HITS
                                                  p                           q
PageRank                                O:y              ←−               x            (2)
Tulokset
Kuvat
                                                              q:(p,q)∈E
Johtop¨¨t¨kset
      aa o


                   • I: auktoriteetti syntyy viereisist¨ keskuksista
                                                       a
                   • O: keskeisyys syntyy auktoriteetista




                      Janne Peltola & Arto Meril¨inen
                                                a         T-61.2020: Haku verkosta
Sis¨lt¨
                                                  a o
                                              Tausta     HITS
                                          Algoritmeja    PageRank
                                             Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                         HITS (2/2)
Janne Peltola
   & Arto
 Meril¨inen
      a          Input: Verkko G , k ∈ N
Sis¨lt¨
   a o
                 Output: x v = xk , y v = yk
Tausta
                 z = (1, 1, ..., 1) ∈ Rn ;
M¨¨ritelmi¨
 aa
Ongelma
          a      x0 ← z;
Algoritmeja      y0 ← z;
HITS
PageRank
                 for i ← 1 to k do
Tulokset             xi ← I(xi−1 , yi−1 );
Kuvat
Johtop¨¨t¨kset
      aa o           yi ← O(xi , yi−1 );
                     xi ← Normalisoi (xi );
                     yi ← Normalisoi (yi );
                 end
                 Ratkaistavissa my¨s lineaarialgebralla!
                                  o

                      Janne Peltola & Arto Meril¨inen
                                                a        T-61.2020: Haku verkosta
Sis¨lt¨
                                                a o
                                            Tausta      HITS
                                        Algoritmeja     PageRank
                                           Tulokset

 T-61.2020:
   Haku
  verkosta
                                                       Satunnainen surffaaja
Janne Peltola
   & Arto
 Meril¨inen
      a


Sis¨lt¨
   a o
                 • Oletetaan satunnainen
Tausta
                   surffaaja
M¨¨ritelmi¨
 aa       a
Ongelma

                                                               A _@     /B        /C
Algoritmeja
                                                                  @@              ?
HITS
                                                                    @@          ~~
PageRank
                                                                      @@     ~~~
Tulokset                                                                  ~~
Kuvat
                                                               D        /E
Johtop¨¨t¨kset
      aa o




                    Janne Peltola  Arto Meril¨inen
                                              a         T-61.2020: Haku verkosta
Sis¨lt¨
                                                a o
                                            Tausta      HITS
                                        Algoritmeja     PageRank
                                           Tulokset

 T-61.2020:
   Haku
  verkosta
                                                       Satunnainen surffaaja
Janne Peltola
    Arto
 Meril¨inen
      a


Sis¨lt¨
   a o
                 • Oletetaan satunnainen
Tausta
                   surffaaja
M¨¨ritelmi¨
 aa       a
Ongelma          • Surffaaja siirtyy
                   satunnaiselle linkitetylle                  A _@     /B        /C
Algoritmeja
                                                                  @@              ?
HITS
                                                                    @@          ~~
PageRank           sivulle
                                                                      @@     ~~~
Tulokset                                                                  ~~
Kuvat
                                                               D        /E
Johtop¨¨t¨kset
      aa o




                    Janne Peltola  Arto Meril¨inen
                                              a         T-61.2020: Haku verkosta
Sis¨lt¨
                                                a o
                                            Tausta      HITS
                                        Algoritmeja     PageRank
                                           Tulokset

 T-61.2020:
   Haku
  verkosta
                                                       Satunnainen surffaaja
Janne Peltola
    Arto
 Meril¨inen
      a


Sis¨lt¨
   a o
                 • Oletetaan satunnainen
Tausta
                   surffaaja
M¨¨ritelmi¨
 aa       a
Ongelma          • Surffaaja siirtyy
                   satunnaiselle linkitetylle                  A _@     /B        /C
Algoritmeja
                                                                  @@              ?
HITS
                                                                    @@          ~~
PageRank           sivulle
                                                                      @@     ~~~
Tulokset
                 • Surffaaja saattaa tylsisty¨
                                            a                             ~~
Kuvat
                                                               D        /E
Johtop¨¨t¨kset
      aa o
                   ja pompata jonnekin
                   aivan muualle




                    Janne Peltola  Arto Meril¨inen
                                              a         T-61.2020: Haku verkosta
Sis¨lt¨
                                                a o
                                            Tausta      HITS
                                        Algoritmeja     PageRank
                                           Tulokset

 T-61.2020:
   Haku
  verkosta
                                                       Satunnainen surffaaja
Janne Peltola
    Arto
 Meril¨inen
      a


Sis¨lt¨
   a o
                 • Oletetaan satunnainen
Tausta
                   surffaaja
M¨¨ritelmi¨
 aa       a
Ongelma          • Surffaaja siirtyy
                   satunnaiselle linkitetylle                  A _@     /B        /C
Algoritmeja
                                                                  @@              ?
HITS
                                                                    @@          ~~
PageRank           sivulle
                                                                      @@     ~~~
Tulokset
                 • Surffaaja saattaa tylsisty¨
                                            a                             ~~
Kuvat
                                                               D        /E
Johtop¨¨t¨kset
      aa o
                   ja pompata jonnekin
                   aivan muualle
                 • Mihin surffaaja
                   todenn¨k¨isesti p¨¨tyy?
                         a o        aa


                    Janne Peltola  Arto Meril¨inen
                                              a         T-61.2020: Haku verkosta
Sis¨lt¨
                                               a o
                                           Tausta     HITS
                                       Algoritmeja    PageRank
                                          Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                         PageRank
Janne Peltola
    Arto
 Meril¨inen
      a


Sis¨lt¨
   a o
                 • Aluksi jokainen sivu on yht¨ todenn¨k¨inen
                                              a       a o
Tausta
M¨¨ritelmi¨
 aa       a
Ongelma

Algoritmeja
HITS
PageRank

Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o




                   Janne Peltola  Arto Meril¨inen
                                             a        T-61.2020: Haku verkosta
Sis¨lt¨
                                               a o
                                           Tausta     HITS
                                       Algoritmeja    PageRank
                                          Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                         PageRank
Janne Peltola
    Arto
 Meril¨inen
      a


Sis¨lt¨
   a o
                 • Aluksi jokainen sivu on yht¨ todenn¨k¨inen
                                              a       a o
Tausta           • Todenn¨k¨isyys virtaa linkkien kautta
                         a o
M¨¨ritelmi¨
 aa       a
Ongelma

Algoritmeja
HITS
PageRank

Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o




                   Janne Peltola  Arto Meril¨inen
                                             a        T-61.2020: Haku verkosta
Sis¨lt¨
                                               a o
                                           Tausta     HITS
                                       Algoritmeja    PageRank
                                          Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                         PageRank
Janne Peltola
    Arto
 Meril¨inen
      a


Sis¨lt¨
   a o
                 • Aluksi jokainen sivu on yht¨ todenn¨k¨inen
                                              a       a o
Tausta           • Todenn¨k¨isyys virtaa linkkien kautta
                         a o
M¨¨ritelmi¨
 aa       a
Ongelma
                 • Paljon linkkej¨ → korkea todenn¨k¨isyys
                                 a                a o
Algoritmeja
HITS
PageRank

Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o




                   Janne Peltola  Arto Meril¨inen
                                             a        T-61.2020: Haku verkosta
Sis¨lt¨
                                               a o
                                           Tausta     HITS
                                       Algoritmeja    PageRank
                                          Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                         PageRank
Janne Peltola
    Arto
 Meril¨inen
      a


Sis¨lt¨
   a o
                 • Aluksi jokainen sivu on yht¨ todenn¨k¨inen
                                              a       a o
Tausta           • Todenn¨k¨isyys virtaa linkkien kautta
                         a o
M¨¨ritelmi¨
 aa       a
Ongelma
                 • Paljon linkkej¨ → korkea todenn¨k¨isyys
                                 a                a o
Algoritmeja
HITS             • Umpikuja → siirtym¨ minne vain
                                     a
PageRank

Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o




                   Janne Peltola  Arto Meril¨inen
                                             a        T-61.2020: Haku verkosta
Sis¨lt¨
                                                  a o
                                              Tausta     HITS
                                          Algoritmeja    PageRank
                                             Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                            PageRank
Janne Peltola
    Arto
 Meril¨inen
      a


Sis¨lt¨
   a o
                   • Aluksi jokainen sivu on yht¨ todenn¨k¨inen
                                                a       a o
Tausta             • Todenn¨k¨isyys virtaa linkkien kautta
                           a o
M¨¨ritelmi¨
 aa       a
Ongelma
                   • Paljon linkkej¨ → korkea todenn¨k¨isyys
                                   a                a o
Algoritmeja
HITS               • Umpikuja → siirtym¨ minne vain
                                       a
PageRank

Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o
                                                   1−d                        PR(a)
                                  PR(x) =              +d                           ,   (3)
                                                    N                          L(a)
                                                                 a:(a,x)∈V

                 Rekursiivinen yht¨l¨ ratkaistaan joko iteratiivisesti tai
                                    ao
                 lineaarialgebralla.


                      Janne Peltola  Arto Meril¨inen
                                                a        T-61.2020: Haku verkosta
Sis¨lt¨
                                             a o
                                         Tausta     Kuvat
                                     Algoritmeja    Johtop¨¨t¨kset
                                                          aa o
                                        Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                       PageRank
Janne Peltola
    Arto
 Meril¨inen
      a


Sis¨lt¨
   a o

Tausta
M¨¨ritelmi¨
 aa       a
Ongelma

Algoritmeja
HITS
PageRank

Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o




                 Janne Peltola  Arto Meril¨inen
                                           a        T-61.2020: Haku verkosta
Sis¨lt¨
                                             a o
                                         Tausta     Kuvat
                                     Algoritmeja    Johtop¨¨t¨kset
                                                          aa o
                                        Tulokset

 T-61.2020:
   Haku
  verkosta
                                                                               HITS
Janne Peltola
    Arto
 Meril¨inen
      a


Sis¨lt¨
   a o

Tausta
M¨¨ritelmi¨
 aa       a
Ongelma

Algoritmeja
HITS
PageRank

Tulokset
Kuvat
Johtop¨¨t¨kset
      aa o




                 Janne Peltola  Arto Meril¨inen
                                           a        T-61.2020: Haku verkosta
Sis¨lt¨
                                               a o
                                           Tausta     Kuvat
                                       Algoritmeja    Johtop¨¨t¨kset
                                                            aa o
                                          Tulokset

 T-61.2020:
   Haku
  verkosta
                                                               Johtop¨¨t¨ksi¨
                                                                     aa o a
Janne Peltola
    Arto
 Meril¨inen
      a


Sis¨lt¨
   a o

Tausta
                 • HITS- ja PageRank-arvojen korrelaatio olematonta (-0,01
M¨¨ritelmi¨
 aa
Ongelma
          a
                   ja 0,03)
Algoritmeja      • PageRank-tulokset luontevia
HITS
PageRank
                 • HITS tuntuu nostavan esiin aggregaattoreita
Tulokset
Kuvat            • Vahva korrelaatio hubien ja auktoriteettien v¨lill¨ (0,70)
                                                                a a
Johtop¨¨t¨kset
      aa o

                 • Outo havainto: auktoriteettien ja out-degreen korrelaatio
                   0,48




                   Janne Peltola  Arto Meril¨inen
                                             a        T-61.2020: Haku verkosta

Contenu connexe

Plus de Janne Peltola

Working as student representative in Aalto University
Working as student representative in Aalto UniversityWorking as student representative in Aalto University
Working as student representative in Aalto UniversityJanne Peltola
 
EFFI @ Asm Winter 2008
EFFI @ Asm Winter 2008EFFI @ Asm Winter 2008
EFFI @ Asm Winter 2008Janne Peltola
 
Bioit-esittely (Bioner)
Bioit-esittely (Bioner)Bioit-esittely (Bioner)
Bioit-esittely (Bioner)Janne Peltola
 
BioDi ry - biotekniikan alumnityö
BioDi ry - biotekniikan alumnityöBioDi ry - biotekniikan alumnityö
BioDi ry - biotekniikan alumnityöJanne Peltola
 
Vaeltajien ulkomaanprojektit (laajennetut 2/09)
Vaeltajien ulkomaanprojektit (laajennetut 2/09)Vaeltajien ulkomaanprojektit (laajennetut 2/09)
Vaeltajien ulkomaanprojektit (laajennetut 2/09)Janne Peltola
 
Vaeltajien kv-projektit
Vaeltajien kv-projektitVaeltajien kv-projektit
Vaeltajien kv-projektitJanne Peltola
 
Vaeltajien ulkomaanprojektit (laajennetut 1/09)
Vaeltajien ulkomaanprojektit (laajennetut 1/09)Vaeltajien ulkomaanprojektit (laajennetut 1/09)
Vaeltajien ulkomaanprojektit (laajennetut 1/09)Janne Peltola
 
Open Space Technology
Open Space TechnologyOpen Space Technology
Open Space TechnologyJanne Peltola
 
Open Space -menetelmä
Open Space -menetelmäOpen Space -menetelmä
Open Space -menetelmäJanne Peltola
 
Aalto-yliopiston strategia
Aalto-yliopiston strategiaAalto-yliopiston strategia
Aalto-yliopiston strategiaJanne Peltola
 
WOSM maailmankonferenssi 2008
WOSM maailmankonferenssi 2008WOSM maailmankonferenssi 2008
WOSM maailmankonferenssi 2008Janne Peltola
 
Piirineuvosto vuonna 2010
Piirineuvosto vuonna 2010Piirineuvosto vuonna 2010
Piirineuvosto vuonna 2010Janne Peltola
 

Plus de Janne Peltola (14)

Working as student representative in Aalto University
Working as student representative in Aalto UniversityWorking as student representative in Aalto University
Working as student representative in Aalto University
 
EFFI @ Asm Winter 2008
EFFI @ Asm Winter 2008EFFI @ Asm Winter 2008
EFFI @ Asm Winter 2008
 
BioIT fukseille
BioIT fukseilleBioIT fukseille
BioIT fukseille
 
Bioit-esittely (Bioner)
Bioit-esittely (Bioner)Bioit-esittely (Bioner)
Bioit-esittely (Bioner)
 
BioDi ry - biotekniikan alumnityö
BioDi ry - biotekniikan alumnityöBioDi ry - biotekniikan alumnityö
BioDi ry - biotekniikan alumnityö
 
Vaeltajien ulkomaanprojektit (laajennetut 2/09)
Vaeltajien ulkomaanprojektit (laajennetut 2/09)Vaeltajien ulkomaanprojektit (laajennetut 2/09)
Vaeltajien ulkomaanprojektit (laajennetut 2/09)
 
Vaeltajien kv-projektit
Vaeltajien kv-projektitVaeltajien kv-projektit
Vaeltajien kv-projektit
 
Vaeltajien ulkomaanprojektit (laajennetut 1/09)
Vaeltajien ulkomaanprojektit (laajennetut 1/09)Vaeltajien ulkomaanprojektit (laajennetut 1/09)
Vaeltajien ulkomaanprojektit (laajennetut 1/09)
 
Open Space Technology
Open Space TechnologyOpen Space Technology
Open Space Technology
 
Open Space -menetelmä
Open Space -menetelmäOpen Space -menetelmä
Open Space -menetelmä
 
Aalto-yliopiston strategia
Aalto-yliopiston strategiaAalto-yliopiston strategia
Aalto-yliopiston strategia
 
Aalto-yliopisto
Aalto-yliopistoAalto-yliopisto
Aalto-yliopisto
 
WOSM maailmankonferenssi 2008
WOSM maailmankonferenssi 2008WOSM maailmankonferenssi 2008
WOSM maailmankonferenssi 2008
 
Piirineuvosto vuonna 2010
Piirineuvosto vuonna 2010Piirineuvosto vuonna 2010
Piirineuvosto vuonna 2010
 

T-61.2020: haku verkosta

  • 1. Sis¨lt¨ a o Tausta Algoritmeja Tulokset T-61.2020: Haku verkosta Janne Peltola & Arto Meril¨inen a Sis¨lt¨ a o T-61.2020: Tausta M¨¨ritelmi¨ aa a Haku verkosta Ongelma Algoritmeja HITS PageRank Janne Peltola & Arto Meril¨inen a Tulokset Kuvat Johtop¨¨t¨kset aa o 5.3.2008 Janne Peltola & Arto Meril¨inen a T-61.2020: Haku verkosta
  • 2. Sis¨lt¨ a o Tausta Algoritmeja Tulokset T-61.2020: Haku verkosta Janne Peltola 1 Tausta & Arto Meril¨inen a M¨¨ritelmi¨ aa a Sis¨lt¨ a o Ongelma Tausta M¨¨ritelmi¨ aa a Ongelma 2 Algoritmeja Algoritmeja HITS HITS PageRank PageRank Tulokset Kuvat Johtop¨¨t¨kset aa o 3 Tulokset Kuvat Johtop¨¨t¨kset aa o Janne Peltola & Arto Meril¨inen a T-61.2020: Haku verkosta
  • 3. Sis¨lt¨ a o Tausta M¨¨ritelmi¨ aa a Algoritmeja Ongelma Tulokset T-61.2020: Haku verkosta Verkko Janne Peltola & Arto Meril¨inen a Verkko on pari (V , E ), miss¨ V sis¨lt¨¨ verkon solmut ja E a a aa Sis¨lt¨ a o verkon kaaret. Kaari yhdist¨¨ kaksi solmua. Verkko on aa Tausta M¨¨ritelmi¨ aa a suunnattu, jos kaari on j¨rjestetty pari. a Ongelma Algoritmeja HITS PageRank Verkoilla voidaan mallintaa Tulokset • topologiaa (tiekartta) Kuvat Johtop¨¨t¨kset aa o • vuorovaikutussuhteita (sosiaaliset verkostot) • riippuvuussuhteita (projektin teht¨v¨verkko) a a • todenn¨k¨isyysjakaumia (Bayes-verkot) a o • ... Janne Peltola & Arto Meril¨inen a T-61.2020: Haku verkosta
  • 4. Sis¨lt¨ a o Tausta M¨¨ritelmi¨ aa a Algoritmeja Ongelma Tulokset T-61.2020: Haku verkosta Haku verkosta Janne Peltola & Arto Meril¨inen a Sis¨lt¨ a o Tausta Haluamme l¨yt¨¨ verkosta tiettyj¨ ehtoja vastaavan solmun. o aa a M¨¨ritelmi¨ aa a Ongelma T¨ss¨ tapauksessa verkko on WWW, eli haluamme l¨yt¨¨ a a o aa Algoritmeja verkkosivun, joka: HITS PageRank Tulokset • sis¨lt¨¨ hakutermin ja a aa Kuvat Johtop¨¨t¨kset aa o • on semanttisesti olennainen. Ongelman ratkaisee mm. Google... Janne Peltola & Arto Meril¨inen a T-61.2020: Haku verkosta
  • 5. Sis¨lt¨ a o Tausta M¨¨ritelmi¨ aa a Algoritmeja Ongelma Tulokset T-61.2020: Haku verkosta Aineisto Janne Peltola & Arto Meril¨inen a Vuoden 2004 presidentinvaaleissa ker¨ttiin poliittisten blogien a Sis¨lt¨ a o Tausta keskustelusta aineisto: M¨¨ritelmi¨ aa Ongelma a • sivujen A ja B v¨lill¨ on kaari, jos A viittaa B:hen a a Algoritmeja • kaaret ovat suunnattuja (A viittaa B:hen) HITS PageRank • blogit luokitellaan oikeisto-vasemmistoakselilla Tulokset Kuvat Johtop¨¨t¨kset aa o Janne Peltola & Arto Meril¨inen a T-61.2020: Haku verkosta
  • 6. Sis¨lt¨ a o Tausta M¨¨ritelmi¨ aa a Algoritmeja Ongelma Tulokset T-61.2020: Haku verkosta Aineisto Janne Peltola & Arto Meril¨inen a Vuoden 2004 presidentinvaaleissa ker¨ttiin poliittisten blogien a Sis¨lt¨ a o Tausta keskustelusta aineisto: M¨¨ritelmi¨ aa Ongelma a • sivujen A ja B v¨lill¨ on kaari, jos A viittaa B:hen a a Algoritmeja • kaaret ovat suunnattuja (A viittaa B:hen) HITS PageRank • blogit luokitellaan oikeisto-vasemmistoakselilla Tulokset Kuvat Johtop¨¨t¨kset aa o Mill¨ blogeilla on a auktoriteettia? Janne Peltola & Arto Meril¨inen a T-61.2020: Haku verkosta
  • 7. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta Keskukset ja auktoriteetit Janne Peltola & Arto Meril¨inen a Sis¨lt¨ a o Tausta M¨¨ritelmi¨ aa a Ongelma • Jaetaan verkon solmut keskuksiin ja auktoriteetteihin Algoritmeja HITS PageRank Tulokset Kuvat Johtop¨¨t¨kset aa o Janne Peltola & Arto Meril¨inen a T-61.2020: Haku verkosta
  • 8. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta Keskukset ja auktoriteetit Janne Peltola & Arto Meril¨inen a Sis¨lt¨ a o Tausta M¨¨ritelmi¨ aa a Ongelma • Jaetaan verkon solmut keskuksiin ja auktoriteetteihin Algoritmeja HITS • Hyv¨ keskus viittaa moniin auktoriteetteihin a PageRank Tulokset • Moni keskus viittaa hyv¨¨n auktoriteettiin aa Kuvat Johtop¨¨t¨kset aa o Janne Peltola & Arto Meril¨inen a T-61.2020: Haku verkosta
  • 9. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta Keskukset ja auktoriteetit Janne Peltola & Arto Meril¨inen a Sis¨lt¨ a o Tausta M¨¨ritelmi¨ aa a Ongelma • Jaetaan verkon solmut keskuksiin ja auktoriteetteihin Algoritmeja HITS • Hyv¨ keskus viittaa moniin auktoriteetteihin a PageRank Tulokset • Moni keskus viittaa hyv¨¨n auktoriteettiin aa Kuvat Johtop¨¨t¨kset aa o • Kyseess¨ on keh¨m¨¨ritelm¨ a a aa a Janne Peltola & Arto Meril¨inen a T-61.2020: Haku verkosta
  • 10. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta HITS (1/2) Janne Peltola & Arto Meril¨inen a Sis¨lt¨ a o M¨¨ritell¨¨n kaksi operaatiota: aa aa Tausta p q M¨¨ritelmi¨ aa Ongelma a I:x ←− y (1) Algoritmeja q:(q,p)∈E HITS p q PageRank O:y ←− x (2) Tulokset Kuvat q:(p,q)∈E Johtop¨¨t¨kset aa o • I: auktoriteetti syntyy viereisist¨ keskuksista a • O: keskeisyys syntyy auktoriteetista Janne Peltola & Arto Meril¨inen a T-61.2020: Haku verkosta
  • 11. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta HITS (2/2) Janne Peltola & Arto Meril¨inen a Input: Verkko G , k ∈ N Sis¨lt¨ a o Output: x v = xk , y v = yk Tausta z = (1, 1, ..., 1) ∈ Rn ; M¨¨ritelmi¨ aa Ongelma a x0 ← z; Algoritmeja y0 ← z; HITS PageRank for i ← 1 to k do Tulokset xi ← I(xi−1 , yi−1 ); Kuvat Johtop¨¨t¨kset aa o yi ← O(xi , yi−1 ); xi ← Normalisoi (xi ); yi ← Normalisoi (yi ); end Ratkaistavissa my¨s lineaarialgebralla! o Janne Peltola & Arto Meril¨inen a T-61.2020: Haku verkosta
  • 12. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta Satunnainen surffaaja Janne Peltola & Arto Meril¨inen a Sis¨lt¨ a o • Oletetaan satunnainen Tausta surffaaja M¨¨ritelmi¨ aa a Ongelma A _@ /B /C Algoritmeja @@ ? HITS @@ ~~ PageRank @@ ~~~ Tulokset ~~ Kuvat D /E Johtop¨¨t¨kset aa o Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta
  • 13. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta Satunnainen surffaaja Janne Peltola Arto Meril¨inen a Sis¨lt¨ a o • Oletetaan satunnainen Tausta surffaaja M¨¨ritelmi¨ aa a Ongelma • Surffaaja siirtyy satunnaiselle linkitetylle A _@ /B /C Algoritmeja @@ ? HITS @@ ~~ PageRank sivulle @@ ~~~ Tulokset ~~ Kuvat D /E Johtop¨¨t¨kset aa o Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta
  • 14. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta Satunnainen surffaaja Janne Peltola Arto Meril¨inen a Sis¨lt¨ a o • Oletetaan satunnainen Tausta surffaaja M¨¨ritelmi¨ aa a Ongelma • Surffaaja siirtyy satunnaiselle linkitetylle A _@ /B /C Algoritmeja @@ ? HITS @@ ~~ PageRank sivulle @@ ~~~ Tulokset • Surffaaja saattaa tylsisty¨ a ~~ Kuvat D /E Johtop¨¨t¨kset aa o ja pompata jonnekin aivan muualle Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta
  • 15. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta Satunnainen surffaaja Janne Peltola Arto Meril¨inen a Sis¨lt¨ a o • Oletetaan satunnainen Tausta surffaaja M¨¨ritelmi¨ aa a Ongelma • Surffaaja siirtyy satunnaiselle linkitetylle A _@ /B /C Algoritmeja @@ ? HITS @@ ~~ PageRank sivulle @@ ~~~ Tulokset • Surffaaja saattaa tylsisty¨ a ~~ Kuvat D /E Johtop¨¨t¨kset aa o ja pompata jonnekin aivan muualle • Mihin surffaaja todenn¨k¨isesti p¨¨tyy? a o aa Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta
  • 16. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta PageRank Janne Peltola Arto Meril¨inen a Sis¨lt¨ a o • Aluksi jokainen sivu on yht¨ todenn¨k¨inen a a o Tausta M¨¨ritelmi¨ aa a Ongelma Algoritmeja HITS PageRank Tulokset Kuvat Johtop¨¨t¨kset aa o Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta
  • 17. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta PageRank Janne Peltola Arto Meril¨inen a Sis¨lt¨ a o • Aluksi jokainen sivu on yht¨ todenn¨k¨inen a a o Tausta • Todenn¨k¨isyys virtaa linkkien kautta a o M¨¨ritelmi¨ aa a Ongelma Algoritmeja HITS PageRank Tulokset Kuvat Johtop¨¨t¨kset aa o Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta
  • 18. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta PageRank Janne Peltola Arto Meril¨inen a Sis¨lt¨ a o • Aluksi jokainen sivu on yht¨ todenn¨k¨inen a a o Tausta • Todenn¨k¨isyys virtaa linkkien kautta a o M¨¨ritelmi¨ aa a Ongelma • Paljon linkkej¨ → korkea todenn¨k¨isyys a a o Algoritmeja HITS PageRank Tulokset Kuvat Johtop¨¨t¨kset aa o Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta
  • 19. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta PageRank Janne Peltola Arto Meril¨inen a Sis¨lt¨ a o • Aluksi jokainen sivu on yht¨ todenn¨k¨inen a a o Tausta • Todenn¨k¨isyys virtaa linkkien kautta a o M¨¨ritelmi¨ aa a Ongelma • Paljon linkkej¨ → korkea todenn¨k¨isyys a a o Algoritmeja HITS • Umpikuja → siirtym¨ minne vain a PageRank Tulokset Kuvat Johtop¨¨t¨kset aa o Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta
  • 20. Sis¨lt¨ a o Tausta HITS Algoritmeja PageRank Tulokset T-61.2020: Haku verkosta PageRank Janne Peltola Arto Meril¨inen a Sis¨lt¨ a o • Aluksi jokainen sivu on yht¨ todenn¨k¨inen a a o Tausta • Todenn¨k¨isyys virtaa linkkien kautta a o M¨¨ritelmi¨ aa a Ongelma • Paljon linkkej¨ → korkea todenn¨k¨isyys a a o Algoritmeja HITS • Umpikuja → siirtym¨ minne vain a PageRank Tulokset Kuvat Johtop¨¨t¨kset aa o 1−d PR(a) PR(x) = +d , (3) N L(a) a:(a,x)∈V Rekursiivinen yht¨l¨ ratkaistaan joko iteratiivisesti tai ao lineaarialgebralla. Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta
  • 21. Sis¨lt¨ a o Tausta Kuvat Algoritmeja Johtop¨¨t¨kset aa o Tulokset T-61.2020: Haku verkosta PageRank Janne Peltola Arto Meril¨inen a Sis¨lt¨ a o Tausta M¨¨ritelmi¨ aa a Ongelma Algoritmeja HITS PageRank Tulokset Kuvat Johtop¨¨t¨kset aa o Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta
  • 22. Sis¨lt¨ a o Tausta Kuvat Algoritmeja Johtop¨¨t¨kset aa o Tulokset T-61.2020: Haku verkosta HITS Janne Peltola Arto Meril¨inen a Sis¨lt¨ a o Tausta M¨¨ritelmi¨ aa a Ongelma Algoritmeja HITS PageRank Tulokset Kuvat Johtop¨¨t¨kset aa o Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta
  • 23. Sis¨lt¨ a o Tausta Kuvat Algoritmeja Johtop¨¨t¨kset aa o Tulokset T-61.2020: Haku verkosta Johtop¨¨t¨ksi¨ aa o a Janne Peltola Arto Meril¨inen a Sis¨lt¨ a o Tausta • HITS- ja PageRank-arvojen korrelaatio olematonta (-0,01 M¨¨ritelmi¨ aa Ongelma a ja 0,03) Algoritmeja • PageRank-tulokset luontevia HITS PageRank • HITS tuntuu nostavan esiin aggregaattoreita Tulokset Kuvat • Vahva korrelaatio hubien ja auktoriteettien v¨lill¨ (0,70) a a Johtop¨¨t¨kset aa o • Outo havainto: auktoriteettien ja out-degreen korrelaatio 0,48 Janne Peltola Arto Meril¨inen a T-61.2020: Haku verkosta