jueves, 11 de diciembre de 2014

PageRank: Random & Intentional Surfer



La intuición básica detrás del PageRank es el modelo Random Surfer (surfista aleatorio). Imagine un surfista Quién empieza en algún lugar en la web (Web Crawl) ; sigue una outlink al azar de cada página la que llega;




Con Alguna pequeña probabilidad (por ejemplo, 5%), él  se "teletransporta" a un lugar al azar en la web en cualquier paso Dado. (Digamos, para simplificar, se selecciona esta página al azar uniformemente desde la web.)


Si pensamos en caso de que el surf es probable que sea 1.000 pasos a partir de ahora, hay una probabilidad de que será cualquier página, dependiendo de la "gira" Y tomó el teletransporte.

Hay un teorema en la teoría de la cadenas de Markov que dice lo siguiente.

La probabilidad (antes del viaje comienza surf ou por carta) que está en una página X especial en k pasos tienden a un número fijo y este número es independiente de los puntos de partida como k crece más amplio.


Esta probabilidad se define para ser el PageRank de una página. Es la probabilidad de un surfista aleatorio que terminaría allí después de un "largo tiempo" del surf por la web.



How is PageRank Used?

PageRank es solo uno de los  métodos usados Google para determinar la relevancia de la página o su importancia. PageRank aparece displayed en el toolbar de su  browser si has instalado la  Google toolbar (http://toolbar.google.com/). Pero en la  Google Toolbar el PageRank solo va de  0 – 10 y es una escala logaritmica:

Toolbar PageRank (log base 10) Real PageRank
0 0 – 09
1 10 – 99
2 100 – 999
3 1,000 – 9,999
4 10,000 – 99,999
5 100,000 – 999,999
6 1,000,000 – 9,999,999
7 10,000,000 – 99,999,999
8 100,000,000 – 999,999,999
9 1,000,000,000 - 9,999,999,999
10 10,000,000,000 – infinito

¿Por qué deberías converge de probabilidad?

Intuitivamente, imaginar un billón de surfistas todos comienzan en el mismo punto. Piense en el sistema de mil pasos más adelante. Después de este punto tener terminado el juego habrá un montón de teletransportación y un montón de decisiones al azar. Creo que es claro que tomaría una circunstancia "raro" para la masa de los surfistas en, por ejemplo, esta página en la web (el que usted está mirando) a depende sensiblemente de si se trata período de tiempo en 1000 o 1001. El que las diversas secuencias de acontecimientos me podrían llevar a esta página en el momento 1,000 son aproximadamente las mismas probabilidades que los que me traería aquí un período posterior, porque hay un montón de aleatoriedad inherente al sistema. Así que el número de internautas en los dos tiempos debe haber sobre los saami.

Usted puede pensar en las personas que practica surf al azar tienen Análoga a moléculas de aire en la habitación. Es q todas las moléculas concebible ir al azar a la parte izquierda de la habitación (dejando un vacío en el lado derecho), A continuación, volver a la parte derecha de la sala de un segundo después, y seguir haciendo este tipo de cosas, el beneficio ¿Esto llevará un proceso muy especial "transporte" con un montón de "aleatoriedad" en ella.

¿Por qué deberías La distribución eventual de los surfistas ser independiente de los puntos de partida? Bueno, porque si-tiene un montón de aleatoriedad Cada surfista llevará eventual "olvidar donde comenzó". Después de bastantes vueltas al azar, resulta Aquellos Que es-han determinado dónde está, no la selección arbitraria de su punto inicial en la red (a menos que el proceso es muy aleatoria - MENOS ejemplo, la red es un ciclo dirigido perfecto y no hay teleportación ) .ventanilla de recepción de boletas

En este contexto particular, la teletransportación es una manera de conseguir del surfista posición próxima período para ser independiente de la posición actual yerno período, y como el teletransporte pasa el tiempo a todo el mundo, el tiempo, el sistema se olvida de el estado en qui empezó. Este es un mecanismo único para olvidar PARTICULARMENTE partir meta punto Incluso sin teletransporte, la propiedad olvido aún mantiene para "la mayoría" de las redes.

Matemáticamente, deje \ pi (t) un vector fila capturar la probabilidad de ser cada página en cualquier momento t. Este es un vector con el número saami de entradas que el número de páginas. Si dejamos que P quién Sea una matriz (i, j) de entrada p_ {ij} es la probabilidad de pasar de página a la página i j, entonces es fácil ver Abebooks web puede calcular la distribución de probabilidad en el próximo curso haciendo lo Después de la multiplicación de matrices, para t> 0:

\ Pi (t) = \ pi (t-1) P.

Resulta que

\ Pi (t) = \ pi (0) P ^ t.

Recordemos que fueron nuestras demandas: la probabilidad (antes del viaje comienza surf ou por carta) que se encuentra en una página X especial en k pasos tienden a un número fijo y este número es independiente de los puntos de partida como k se ensancha. Matemáticamente, los primeros medios de agrupamiento afirmación de que \ pi (t) tienden a un vector fijo (cada entrada converge a un especial de probabilidad). La segunda afirmación Este vector es que no depende de la distribución de probabilidad \ pi (0). Es no importa qui la même \ pi (0) que utiliza.

Ahora ¿por qué deberías Ambos hechos ser verdad? Podemos ver que rápidamente Eso Ambos sostienen si y sólo si P ^ t converge a alguna matriz, decimos P ^ {\ infty}, cuyas filas es identiques.

Mi mano es ahora el punto Esa realidad no es tan obvio como un reclamo matemática, y en este punto no se puede evitar haciendo real matemáticas para ver algunos por qué es cierto.

Hay varias maneras de ver, ninguno de qui me puede articular mejor que las personas-han demás ya (incluyendo la respuesta de Steve Ritter en esta página).

Una explicación se basa en la descomposición espectral de P. Vea la Sección 8.4. del libro de texto de Carl Meyer aquí: http: //www.matrixanalysis.com/Ch ... (ver las secciones anteriores para el fondo). La idea básica es mostrar que bajo el modelo establecida arriba, P tiene 1 como un valor propio y que todos los demás están protegidos estrictamente menor. A continuación, utilice el teorema espectral para mostrar que cuando se toma poderes, sólo la parte de la descomposición asociada con el valor propio 1 sobrevive, compartir y que no depende de t. La parte de la descomposición espectral es una matriz de todas las filas de los que se identiques entre sí, bajo algunos supuestos adicionales sobre la matriz de transición.
Un autónomo exposición ligeramente diferente y más Tal vez por Gerard Debreu se administra y EN Herstein: http: ... //cowles.econ.yale.edu/P/cp. La principal diferencia aquí es que (siguiendo las ideas de Alexandroff y Hopf) Ellos hábilmente utilizan el teorema del punto fijo de Brouwer a la deriva algunas propiedades importantes de la matriz P.
Un pequeño ejemplo de dos estados agradable se da aquí, para construir la intuición para la convergencia. http: ... //www.sci.csueastbay.edu/st




PageRank o PR (A) se puede calcular utilizando un único algoritmo iterativo, y corresponde a la principal vector propio de la matriz de enlace normalizado de la web.


BackRub (PageRank) 's webcrawler, tal como se define en este documento, crea una matriz cuadrada de 26 millones de páginas web, qui normalizar los Inventores Su factor de amortiguación y el uso de cualquier trucos demás que tienen bajo la manga que han elegido no enumerar a nosotros .ventanilla de recepción de boletas Entonces ellos se descomponen los valores propios y vectores propios de la matriz En.

Cualquier vector propio tiene la propiedad \ | v \ | _2 = 1, y tal como las entradas de V corresponde a una distribución de probabilidad, un vector de situaciones mutuamente excluyentes y exhaustivas (es decir, que un andador aleatoria que sigue los enlaces en las tierras de Internet era página). Como tal, el vector propio principal de la matriz de adyacencia de la web est una distribución de probabilidad.,

Dejando A la matriz enlace normalizado de la web, podemos ver que el PageRank PR (A) converge a A ^ kb para cualquier b Arbitraria que elijamos.

Suponemos que A = Q \ Q Lambda ^ {- 1}, una descomposición de valor propio, con Q siendo el blanco el conjunto de vectores propios de A.

El principal vector propio se obtuvo para ello (ingenuamente) a través de la iteración poder, multiplicación continua de A.

Para cada iteración individual, la multiplicación por la matriz A de cualquier vector b b escalas selon los valores propios y vectores propios de A. Uso de la notación anterior, Q_i \ in Q son las direcciones del la del que se escala en vector, y \ lambda_i \ en \ lambda es la magnitud de la transformación de b en la dirección Q_i.

Lo que esto significa es esa agrupación b = Ab se escala en la gestión de todos los vectores propios, el objetivo se escala con mayor magnitud ("estirada más allá") en la dirección Q_i. Si normalizamos V tal que \ | v \ | _2 = 1, entonces nosotros-tenemos un vector unitario que - no importa lo que lo b está más cerca de que era q_1 que antes.

Si multiplicamos el vector resultante por A y normalizar de nuevo, obtenemos Comentarios otro vector unidad con la distancia euclídea aún más pequeño de lo verdadero q_1.

Tras la normalización, A ^ + ib = q_1 \ varepsilon_i y A ^ {i + 1} + b = q_1 \ varepsilon_ {i + 1} producir tales términos de error que \ varepsilon_ {i + 1} <\ {i} varepsilon_.

¿Que es el PageRank?

Brevemente  PageRank es un  "voto", por la pagina de la Web, a una otra pagina esto determina si es importante. Un link  a una page cuernta como un voto de apoyo. El PageRank esta  definido  en el Paper de Brin & Page, como:

We assume page A has pages T1…Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Recapitulando el PageRank


Reiterando en las respuestas, se puede ver  el gráfico de red como una serie de estados de una cadena de Markov. Un visitante ( Random Surfer ) pasa de una página a otra lo que en nuestra cadena de Markov que va de un estado a otro probabilidad basada en transición  (definido por  enlaces entre páginas). Usted puede pensar en la algoritmo pagerank  de ranking que cuenta  como la probabilidad estacionaria o probabilidad limitada para cada estado. Es decir, si yo soy un usuario y estoy viajando en este grafo, la probabilidad de Limitación Cada página es el porcentaje de mi tiempo que se gasta en una sola página. Ese porcentaje de tiempo es el estacionaria π distribución de probabilidad y estatales para que se pueden considerar como el page rank de esa página. Ahora bien, es fácil demostrar que recurrente irreductible y positivo  Cadenas de Markov- aperiódicas tienen distribuciones de probabilidad estacionaria finita y sus probabilidades fijas y limitantes son exactamente lo mismo. Es por eso que un PageRank de una página es un número finito y el algoritmo converge. 

Puedes COMPARTIR esta entrada en tus redes sociales: Twitter; Facebook; Google+
Con solo presionar un botón. ¡gracias por compartir!


Regístrese, comente  y participe en mi blog como escritor invitado: ¡Anímese sus inquietudes cuentan en este blog!  

No hay comentarios:

Publicar un comentario en la entrada