sabato 16 ottobre 2010

L'IMPORTANZA DELLE TOOLBAR DI ALEXA E GOOGLE, E DEL TRAFFIC RANK



Normalmente si tende a sottostimare l'importanza dei dati raccolti dalle Toolbar dei search engine con cui essi valutano le pagine indicizzate.


Eppure sono gli stessi search engine a dichiarare che i dati provenienti dai clic dei visitatori che usano le toolbar vengono utilizzati per raccogliere e incrociare i dati statistici del comportamento degli utenti tramite il monitoraggio del traffic ranking.




Da una nota di Alexa Toolbar: "Making a better internet"

Alexa could not exist without the participation of the Alexa Toolbar community. Each member of the community, in addition to getting a useful tool, is giving back. Simply by using the Firefox and IE toolbars each member contributes valuable information about the web, how it is used, what is important and what is not. This information is returned to the community as Related Links, Traffic Rankings and more.

e ancora...

The traffic rank is based on three months of aggregated historical traffic data from millions of Alexa Toolbar users and is a combined measure of page views and users (reach).

e ancora...

Alexa computes traffic rankings by analyzing the Web usage of millions of Alexa Toolbar users. The information is sorted, sifted, anonymized, counted, and computed, until, finally, we get the traffic rankings shown in the Alexa service. The process is relatively complex, but if you have a need to know, please read on.


Per quanto riguarda Google, la sua formula semplificata (che peraltro non è quella attualmente usata) prevedeva fin dall'inizio un fattore, chiamato damping factor, trad. fattore di smorzamento [1] [2], il cui valore viene deciso da Google e che nella documentazione originale assumeva valore 0,85. Tale valore può essere aggiustato da Google per decidere la percentuale di PageRank che deve transitare da una pagina all'altra. Valore che viene influenzato da molte variabili, tra cui il Traffic Ranking, come affermato da Karla Alcazar, docente di Computer Science presso L'Università di Friburgo

"The random surfer picks a web page and keeps clicking on links, this probability is called damping factor".

"The PageRank value of a page reflects the frequency of hits on that page by the random surfer".
Karla Alcazar
Seminar: Link mining (2004)
Intitute für Informatik - Universität Freiburg

La formula originale semplificata del PageRank è la seguente:





Dove:
PR[A] è il valore di PageRank della pagina A che vogliamo calcolare
T1...Tn sono le pagine che contengono almeno un link verso A
PR[T1] ... PR[Tn] sono i valori di PageRank delle pagine T1 ... Tn
C[T1] ... C[Tn] sono il numero complessivo di link contenuti nella pagina che offre il link
d è il damping factor
Il PageRank non è altro che un indice di probabilità, di quanto tempo, mediamente, un navigatore si troverà su una certa pagina.
La formula si basa sulla teoria dei processi di Markov e c'è da dire che nella sua formulazione originale non considera il contenuto delle pagine.
Questo potrebbe essere un grosso limite se non fosse comunque abbinato ad algoritmi di analisi del contenuto, quali LSI o Proximity.


I ricercatori e docenti Fortunato, Flammini, Menczer, Vespignani nella loro ricerca "The egalitarian effect of search engines" pubblicata nel 2005 hanno dimostrato che:

"...search engines bias the traffic of users according to their page-ranking strategies, and some have argued that they create a vicious cycle that amplifies the dominance of established and already popular sites. We show that, contrary to these prior claims and our own intuition, the use of search engines actually has an egalitarian effect. We reconcile theoretical arguments with empirical evidence showing that the combination of retrieval by search engines and search behavior by users mitigates the attraction of popular pages, directing more traffic toward less popular sites, even in comparison to what would be expected from users randomly surfing the Web."

[vedi anche J. Cho, S. Roy, and R. Adams. Page quality: In search of an unbiased web ranking. In Proc. ACM International Conference on Management of Data (SIGMOD), 2005]



Un testo molto stimolante appena pubblicato sull'argomento (solo in lingua inglese) è quello di Amy Langville (Assistant Professor of Mathematics al College di Charleston in South Carolina) e Carl D. Meyer (Professor of Mathematics alla North Carolina State University) dal titolo:

Google's PageRank and Beyond: The Science of Search Engine Rankings
Princeton University Press, New Jersey, 2006

in particolare il cap. 12.3 dal titolo "Ranking Based on Traffic Flow" (pagine 136-138) la cui dimostrazione, se pur interessante, è troppo lunga per poter essere riportata in queste righe [3].

Accenno solo brevemente il suo contenuto.

Si tratta di una interessante interpretazione di John A. Tomlin a proposito del Traffic Rank.
Grazie al metodo matematico dei Moltiplicatori Langrange è possibile ottenere una soluzione che descrive la "temperatura" per ognuna delle pagine Web. Una interpretazione che affonda le sue radici nella relazione termodinamica tra entropia e calore (HotRank) [4]. In assenza di altre informazioni sul traffico delle pagine del World Wide Web, è possibile utilizzare un metodo che renda massima l'entropia. Questo metodo è soggetto alle condizioni di conservazione della rete in cui è calcolata (che sia una rete intranet o una rete extranet).


Claudio Pasqua

NOTE


[1] Il damping factor è un parametro correttivo che tiene conto della probabilità che l'utente cambi percorso durante la sua scelta dei link presenti in una pagina web. Attraverso il damping factor, Google può determinare il valore percentuale di PageRank che transita da una pagina all' altra e stabilire un valore minimo di Page Rank attribuito ad ognuna delle pagine presenti nei suoi archivi.

[2] Paolo Boldi Massimo Santini Sebastiano Vigna, PageRank as function of the Damping Factor - DSI, Università degli Studi di Milano

[3] Chi desidera la dimostrazione completa può scaricarla da: John A. Tomlin - A New Paradigm for Ranking Pages on the World Wide Web - IBM Almaden Research Center

[4] Sulle relazioni tra entropia e web: La fisica del Web - The Daily Bit - febbraio 2007

Nessun commento: