2. Introducción
Al comienzo los motores de búsquedas comparaban
la similaridad de contenido una consulta y las páginas
indexadas.
Utilizando métodos de information retrieval coseno, TF-IDF, ...
A partir de 1996, se hizo evidente que la similaridad de
contenido no era suficiente.
El número de páginas creció rapidamente a mediados de los
90.
Intentaron “técnicas de clasificación”, Google estimó 10 millones
de páginas relevantes.
Cómo seleccionar solo 30-40 páginas y clasificarlas
adecuadamente para presentarlas a los usuarios?
Similaridad de contenido es fácil de spam
El dueño de una página se puede repetir unas palabras y
agregar muchas palabras relacionadas para impulsar el
ranking de sus páginas y/o para hacer las páginas relevantes
para un gran número de consultas.
2
3. Introducción
A comienzo de 1996 los investigadores
comenzaron a trabajar e el problema, recurriendo
a hyperlinks.
En 1997 Robin Li registró una patente de búsqueda
basada en hyperlinks. El método usa las palabras en
el texto del hyperlink.
Las páginas web son conectadas a través de
hyperlinks, que contienen información importante:
Algunos hyperlinks: organizan información al mismo sitio.
Otros hyperlinks: apuntan a páginas de otros Web sites. Estos
hyperlinks salientes a menudo indican una transmisión implicita
de autoridad a las páginas que apuntan.
Aquellas páginas que son apuntadas por muchas otras
páginas pueden contener información fidedigna
(autoridad).
3
4. Introducción
Durante 1997-1998 aparecieron dos de los más
influyentes algoritmos de búsqueda basados en
hyperlinks: PageRank y HITS.
Ambos algoritmos se relacionan con redes
sociales, explotan los hipervínculos de la Web
para clasificar las páginas en función de sus
niveles de prestigio o autoridad.
HITS: Jon Kleinberg (Cornel University), en el
Simposio sobre algoritmos discretos, enero de 1998.
PageRank: Sergey Brin y Larry Page, (Stanford
University), (WWW7), abril de 1998. PageRank
potencia el motor de búsqueda de Google.
4
5. Introducción
Además del ranking de búsquedas, los hyperlinks
son útiles encontrando comunidades Web.
Una comunidad Web es un conjunto de páginas
densamente unidas representando un grupo de
personas con un interés en común.
Más allá de hyperlinks explícitos en la Web, links en
otros contextos son útiles también.
para descubrir comunidades de entidades (personas u
organizaciones) en textos libres de documentos, etc.
para analizar fenómenos sociales en mais.
5
6. Análisis de redes sociales
Redes sociales es el estudio de entidades sociales
(personas en una organización, llamados actores) y sus
interacciones y relaciones.
Las interacciones y relaciones pueden ser
representadas con una red o grafo,
cada vértice (o nodo) representa un actor
cada link representa una relación.
Desde la red, podemos estudiar las propiedades
de su estructura, y el rol, posición y prestigio de
cada actor social.
Podemos también encontrar varios tipos de sub-
grafos, comunidades formadas por grupos de
actores.
6
7. Redes sociales y la Web
Análisis de redes sociales es muy útil para la Web
porque la Web es esencialmente una sociedad
virtual,
cada página: un actor social,
cada hyperlink: una relación.
Muchos resultados de redes sociales pueden ser
adaptados y extendidos para usar en el contexto
de la Web.
Estudiaremos 2 tipos de análisis de redes
sociales, centralidad y prestigio, que están
relacionadas a análisis de hyperlink y búsqueda
en la Web.
7
8. Centralidad
Actores importantes o prominentes son
aquellos que están involucrados con otros
actores ampliamente.
Una persona con amplios contactos (links) o
comunicaciones con muchas otras personas
en la organización es considerado más
importante que una persona con menos
contactos.
Los links también pueden ser llamados lazos.
Un actor central es uno que participa en
muchos lazos.
8
10. Prestigio
El prestigio es una medida más precisa de un
actor que la centralidad.
Distinguir: lazo enviado (link saliente) y lazo recibido (link
entrante)
Un actor de prestigio es aquel con altos vinculos
entrantes.
Para calcular el prestigio: solamente utilizamos links
entrantes.
Diferencia entre centralidad y prestigio:
Centralidad se basa en los links salientes.
Prestigio se basa en los links entrantes.
Medidas de prestigio. Rank prestige constituye la base
de la mayoría de los algoritmos de Web page link
analysis, incluyendo PageRank y HITS.
10
12. PageRank
El año 1998 fue un año agitado para el
modelo de análisis de enlaces Web. Los
algoritmos PageRank y HITS fueron
publicados en ese año.
Las conexiones entre PageRank y HITS son
bastantes sorprendentes.
Desde ese momento, PageRank se ha
convertido en el modelo de análisis de link
domintante:
debido a la independencia de las consultas,
su habilidad para combatir el spamming,
gran suceso del negocio de Google.
12
13. PageRank: definición general
PageRank confia en la naturaleza democrática de
la web usando su basta estructura de links
como un indicador de valor de calidad de cada
página individual.
PageRank interpreta un hyperlink de una página x a
una página y como un voto, de la página x para la
página y.
Sin embargo, PageRank mira más que el número
total de votos, también analiza la página que emite
el voto.
Votos emitidos por páginas “importantes” pesan más y
ayudan a hacer “más importantes” otras páginas.
Esto es exactamente la idea de ranking de
prestigio en una red social.
13
14. PageRank: más
especificamente
Un hyperlink de una página a otra es un medio
implícito de autoridad a la página de destino.
Cuánto más links-entrantes una página i recibe,
más prestigio la página i tiene.
Las páginas que apuntan a la página i también
tienen su nivel de prestigio.
Una página de alto prestigio apuntando a i es más
importante que una página de menor prestigio
apuntando a i.
En otras palabras, una página es más importante si
es apuntanda por otras páginas importantes.
14
15. PageRank: Algoritmo
De acuerdo al ranking de prestigio, la
importante de una página i (valor PageRank
de i) es la suma de valores de PageRank de
todas las páginas que apuntan a i.
Desde que una página puede apuntar a
muchas otras, su valor de prestigio debe ser
compartido.
La Web como un grafo dirigido G = (V, E).
Donde el número de páginas es n. El valor
de PageRank de una página i (denotada
P(i)) es definida como:,
)(
)(
),(
Eij jO
jP
iP Oj is the number
of out-link of j
15
16. PageRank: Ejemplo
Asumiendo 4 páginas (A, B, C, D) con un
PageRank inicial de 0.25
Si B, C y D apuntan a A, entonces el PR de A
será de 0.75
Suponiendo que B tiene links a C y A y D tiene
links a las 3, entonces en la siguiente iteración B
le transferirá la mitad de su valor a A y D a las 3,
mientras que C no tiene links salientes.
En otras palabras, el PR conferido por un link
saliente es igual al score de PR divido la cantidad
de links salientes.
Obteniendo la formula general:
16
17. PageRank: Ejemplo
Matematicamente PageRanks para
una red simple, expresado como
porcentajes (Google usa una escala
logaritmica). C tiene el más alto
PageRank más que E, a pesar que hay
menos enlances a C, el link a C viene
de una página de mayor importancia y
por lo tanto es de gran valor. Si los
navegantes comenzaran por una
página al azar tendría 85% de
probabilidad de elegir un link al azar a
partir de la página que están visitando y
un 15% de probabilidad de saltar a una
página elegida al azar de la web, ellos
llegarían a la página E el 8,1% de las
veces (el 15% de probabilidad de saltar
a una página arbitraria corresponde al
factor de damping de 85%).
17
18. PageRank: Ventajas
Lucha contra el spam. Una página es importante
si las páginas que apuntan a ella también lo son.
Dado que no es fácil para el dueño de una página
Web agregar enlaces en página desde otras
páginas importantes, no es por lo tanto fácil de
influenciar PageRank.
PageRank es una medida global independiente
de las consultas.
Los valores de PageRank para todas las páginas son
calculadas y guardas en forma off-line más que en tiempo
de la consulta.
18
19. HITS
HITS proviene de Hypertext Induced Topic
Search.
A diferencia de PageRank que es un algoritmo
de ranking estático, HITS es dependiente a la
consulta de búsqueda.
Cuando un usuario envia una consulta de
búsqueda,
HITS primero expande la lista de páginas
relevantes devueltas por el motor de búsqueda, y
produce 2 rankings del conjunto de páginas
expandidas, ranking de autoridad y ranking
19
20. Autoridad y Hubs
Autoridad: a grandes rasgos, la autoridad es
una página con muchos links entrantes.
La idea es que la página tenga un buen
contenido o autoridad sobre un tema,
así que mucha gente confía en ella y enlazar con
ella.
Hub: Un hub es una página con muchos links
salientes.
La página sirve como un organizador de la
información de un tema en particular y
apunta a muchas páginas de autoridad sobre el
20
22. Ideas claves de HITS
22
Un hub bueno apunta a muchas
autoridades buenas, y
Una autoridad buena es apuntada por
muchos hubs buenos.
Autoridades y hubs tienen una
relación de refuerzo mutuo
23. HITS: Algoritmo
23
Dado una consulta de búsqueda q, HITS
recolecta un conjunto de páginas con los
siguientes pasos:
Envia la consulta q al motor de búsqueda.
Se recoge entonces t (t = 200 es usando en el
paper de HITS) el valor más alto de páginas
rankeadas. Esto es llamada el conjunto raiz W.
Crece W incluyendo cualquier página que apunte
a una en W y cualquiera apuntada por W. Esto da
lugar al conjunto S, conjunto base.
24. Grafo G
24
HITS trabaja en las páginas en S y asigna
a cada página S un score de autoridad y
un score de hub.
Sea n el número de páginas en S.
Nuevamente se usa G = (V, E) para
denotar el grafo de hyperlinks de S
Usamos L para denotar la matriz de
adyacencia del grafo.
otherwise
Ejiif
Lij
0
),(1
25. HITS: Algoritmo
25
Sea a(i) el score de autoridad de una página i,
y h(i) el score de hub de la página i.
La relación de refuerzo mutual de los dos
scores están representado por:
Eij
jhia
),(
)()(
Eji
jaih
),(
)()(
26. Ventajas y desventas de HITS
26
Ventajas: su habilidad de rankear páginas de
acuerdo al tema de la consulta, puede ser capaz de
proveer autoridades y hubs más relevantes.
Desventajas:
Spam. De hecho es facil de influenciar HITS desde afuera
añadiendo enlaces de la propia página.
Derivación de temas. Muchas páginas en el conjunto
expandido no pueden ser del mismo tema.
Tiempo de respuesta ineficiente. El tiempo de evaluación
de la consulta es bajo. Recolectar el conjunto raiz,
expandirlo y calcular el autovector de todas las
operaciones es expansiva.