Web Link Analysis

WEB y TEXT MINING
Link AnalysisJuan Azcurra

Introducción
 Al comienzo los motores de búsquedas comparaban
la similaridad de contenido una consulta y las páginas
indexadas.
 Utilizando métodos de information retrieval coseno, TF-IDF, ...
 A partir de 1996, se hizo evidente que la similaridad de
contenido no era suficiente.
 El número de páginas creció rapidamente a mediados de los
90.
 Intentaron “técnicas de clasificación”, Google estimó 10 millones
de páginas relevantes.
 Cómo seleccionar solo 30-40 páginas y clasificarlas
adecuadamente para presentarlas a los usuarios?
 Similaridad de contenido es fácil de spam
 El dueño de una página se puede repetir unas palabras y
agregar muchas palabras relacionadas para impulsar el
ranking de sus páginas y/o para hacer las páginas relevantes
para un gran número de consultas.
2

Introducción
 A comienzo de 1996 los investigadores
comenzaron a trabajar e el problema, recurriendo
a hyperlinks.
 En 1997 Robin Li registró una patente de búsqueda
basada en hyperlinks. El método usa las palabras en
el texto del hyperlink.
 Las páginas web son conectadas a través de
hyperlinks, que contienen información importante:
 Algunos hyperlinks: organizan información al mismo sitio.
 Otros hyperlinks: apuntan a páginas de otros Web sites. Estos
hyperlinks salientes a menudo indican una transmisión implicita
de autoridad a las páginas que apuntan.
 Aquellas páginas que son apuntadas por muchas otras
páginas pueden contener información fidedigna
(autoridad).
3

Introducción
 Durante 1997-1998 aparecieron dos de los más
influyentes algoritmos de búsqueda basados en
hyperlinks: PageRank y HITS.
 Ambos algoritmos se relacionan con redes
sociales, explotan los hipervínculos de la Web
para clasificar las páginas en función de sus
niveles de prestigio o autoridad.
 HITS: Jon Kleinberg (Cornel University), en el
Simposio sobre algoritmos discretos, enero de 1998.
 PageRank: Sergey Brin y Larry Page, (Stanford
University), (WWW7), abril de 1998. PageRank
potencia el motor de búsqueda de Google.
4

Introducción
 Además del ranking de búsquedas, los hyperlinks
son útiles encontrando comunidades Web.
 Una comunidad Web es un conjunto de páginas
densamente unidas representando un grupo de
personas con un interés en común.
 Más allá de hyperlinks explícitos en la Web, links en
otros contextos son útiles también.
 para descubrir comunidades de entidades (personas u
organizaciones) en textos libres de documentos, etc.
 para analizar fenómenos sociales en mais.
5

Análisis de redes sociales
 Redes sociales es el estudio de entidades sociales
(personas en una organización, llamados actores) y sus
interacciones y relaciones.
 Las interacciones y relaciones pueden ser
representadas con una red o grafo,
 cada vértice (o nodo) representa un actor
 cada link representa una relación.
 Desde la red, podemos estudiar las propiedades
de su estructura, y el rol, posición y prestigio de
cada actor social.
 Podemos también encontrar varios tipos de sub-
grafos, comunidades formadas por grupos de
actores.
6

Redes sociales y la Web
 Análisis de redes sociales es muy útil para la Web
porque la Web es esencialmente una sociedad
virtual,
 cada página: un actor social,
 cada hyperlink: una relación.
 Muchos resultados de redes sociales pueden ser
adaptados y extendidos para usar en el contexto
de la Web.
 Estudiaremos 2 tipos de análisis de redes
sociales, centralidad y prestigio, que están
relacionadas a análisis de hyperlink y búsqueda
en la Web.
7

Centralidad
 Actores importantes o prominentes son
aquellos que están involucrados con otros
actores ampliamente.
 Una persona con amplios contactos (links) o
comunicaciones con muchas otras personas
en la organización es considerado más
importante que una persona con menos
contactos.
 Los links también pueden ser llamados lazos.
Un actor central es uno que participa en
muchos lazos.
8

Prestigio
 El prestigio es una medida más precisa de un
actor que la centralidad.
 Distinguir: lazo enviado (link saliente) y lazo recibido (link
entrante)
 Un actor de prestigio es aquel con altos vinculos
entrantes.
 Para calcular el prestigio: solamente utilizamos links
entrantes.
 Diferencia entre centralidad y prestigio:
 Centralidad se basa en los links salientes.
 Prestigio se basa en los links entrantes.
 Medidas de prestigio. Rank prestige constituye la base
de la mayoría de los algoritmos de Web page link
analysis, incluyendo PageRank y HITS.
10

PageRank
 El año 1998 fue un año agitado para el
modelo de análisis de enlaces Web. Los
algoritmos PageRank y HITS fueron
publicados en ese año.
 Las conexiones entre PageRank y HITS son
bastantes sorprendentes.
 Desde ese momento, PageRank se ha
convertido en el modelo de análisis de link
domintante:
 debido a la independencia de las consultas,
 su habilidad para combatir el spamming,
 gran suceso del negocio de Google.
12

PageRank: definición general
 PageRank confia en la naturaleza democrática de
la web usando su basta estructura de links
como un indicador de valor de calidad de cada
página individual.
 PageRank interpreta un hyperlink de una página x a
una página y como un voto, de la página x para la
página y.
 Sin embargo, PageRank mira más que el número
total de votos, también analiza la página que emite
el voto.
 Votos emitidos por páginas “importantes” pesan más y
ayudan a hacer “más importantes” otras páginas.
 Esto es exactamente la idea de ranking de
prestigio en una red social.
13

PageRank: más
especificamente
 Un hyperlink de una página a otra es un medio
implícito de autoridad a la página de destino.
 Cuánto más links-entrantes una página i recibe,
más prestigio la página i tiene.
 Las páginas que apuntan a la página i también
tienen su nivel de prestigio.
 Una página de alto prestigio apuntando a i es más
importante que una página de menor prestigio
apuntando a i.
 En otras palabras, una página es más importante si
es apuntanda por otras páginas importantes.
14

PageRank: Algoritmo
 De acuerdo al ranking de prestigio, la
importante de una página i (valor PageRank
de i) es la suma de valores de PageRank de
todas las páginas que apuntan a i.
 Desde que una página puede apuntar a
muchas otras, su valor de prestigio debe ser
compartido.
 La Web como un grafo dirigido G = (V, E).
Donde el número de páginas es n. El valor
de PageRank de una página i (denotada
P(i)) es definida como:,
)(
)(
),(


Eij jO
jP
iP Oj is the number
of out-link of j
15

PageRank: Ejemplo
 Asumiendo 4 páginas (A, B, C, D) con un
PageRank inicial de 0.25
 Si B, C y D apuntan a A, entonces el PR de A
será de 0.75
 Suponiendo que B tiene links a C y A y D tiene
links a las 3, entonces en la siguiente iteración B
le transferirá la mitad de su valor a A y D a las 3,
mientras que C no tiene links salientes.
 En otras palabras, el PR conferido por un link
saliente es igual al score de PR divido la cantidad
de links salientes.
 Obteniendo la formula general:
16

PageRank: Ejemplo
Matematicamente PageRanks para
una red simple, expresado como
porcentajes (Google usa una escala
logaritmica). C tiene el más alto
PageRank más que E, a pesar que hay
menos enlances a C, el link a C viene
de una página de mayor importancia y
por lo tanto es de gran valor. Si los
navegantes comenzaran por una
página al azar tendría 85% de
probabilidad de elegir un link al azar a
partir de la página que están visitando y
un 15% de probabilidad de saltar a una
página elegida al azar de la web, ellos
llegarían a la página E el 8,1% de las
veces (el 15% de probabilidad de saltar
a una página arbitraria corresponde al
factor de damping de 85%).
17

PageRank: Ventajas
 Lucha contra el spam. Una página es importante
si las páginas que apuntan a ella también lo son.
 Dado que no es fácil para el dueño de una página
Web agregar enlaces en página desde otras
páginas importantes, no es por lo tanto fácil de
influenciar PageRank.
 PageRank es una medida global independiente
de las consultas.
 Los valores de PageRank para todas las páginas son
calculadas y guardas en forma off-line más que en tiempo
de la consulta.
18

HITS
 HITS proviene de Hypertext Induced Topic
Search.
 A diferencia de PageRank que es un algoritmo
de ranking estático, HITS es dependiente a la
consulta de búsqueda.
 Cuando un usuario envia una consulta de
búsqueda,
 HITS primero expande la lista de páginas
relevantes devueltas por el motor de búsqueda, y
 produce 2 rankings del conjunto de páginas
expandidas, ranking de autoridad y ranking
19

Autoridad y Hubs
Autoridad: a grandes rasgos, la autoridad es
una página con muchos links entrantes.
 La idea es que la página tenga un buen
contenido o autoridad sobre un tema,
 así que mucha gente confía en ella y enlazar con
ella.
Hub: Un hub es una página con muchos links
salientes.
 La página sirve como un organizador de la
información de un tema en particular y
 apunta a muchas páginas de autoridad sobre el
20

Ideas claves de HITS
22
 Un hub bueno apunta a muchas
autoridades buenas, y
 Una autoridad buena es apuntada por
muchos hubs buenos.
 Autoridades y hubs tienen una
relación de refuerzo mutuo

HITS: Algoritmo
23
 Dado una consulta de búsqueda q, HITS
recolecta un conjunto de páginas con los
siguientes pasos:
 Envia la consulta q al motor de búsqueda.
 Se recoge entonces t (t = 200 es usando en el
paper de HITS) el valor más alto de páginas
rankeadas. Esto es llamada el conjunto raiz W.
 Crece W incluyendo cualquier página que apunte
a una en W y cualquiera apuntada por W. Esto da
lugar al conjunto S, conjunto base.

Grafo G
24
 HITS trabaja en las páginas en S y asigna
a cada página S un score de autoridad y
un score de hub.
 Sea n el número de páginas en S.
 Nuevamente se usa G = (V, E) para
denotar el grafo de hyperlinks de S
 Usamos L para denotar la matriz de
adyacencia del grafo.


 

otherwise
Ejiif
Lij
0
),(1

HITS: Algoritmo
25
 Sea a(i) el score de autoridad de una página i,
y h(i) el score de hub de la página i.
 La relación de refuerzo mutual de los dos
scores están representado por:


Eij
jhia
),(
)()(


Eji
jaih
),(
)()(

Ventajas y desventas de HITS
26
 Ventajas: su habilidad de rankear páginas de
acuerdo al tema de la consulta, puede ser capaz de
proveer autoridades y hubs más relevantes.
 Desventajas:
 Spam. De hecho es facil de influenciar HITS desde afuera
añadiendo enlaces de la propia página.
 Derivación de temas. Muchas páginas en el conjunto
expandido no pueden ser del mismo tema.
 Tiempo de respuesta ineficiente. El tiempo de evaluación
de la consulta es bajo. Recolectar el conjunto raiz,
expandirlo y calcular el autovector de todas las
operaciones es expansiva.

Web Link Analysis

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (19)

En vedette

En vedette (19)

Similaire à Web Link Analysis

Similaire à Web Link Analysis (20)

Plus de Juan Azcurra

Plus de Juan Azcurra (16)

Dernier

Dernier (20)

Web Link Analysis