mercoledì 28 settembre 2011

Un nuovo modello matematico rivoluzionerà i motori di ricerca?

Un recente studio su un modello messo a punto da Clarke Daoud,  ricercatore dell'università britannica di Hertfordshire, promette di rivoluzionare i motori di ricerca attualmente utilizzati per Internet.

E' descritto sulla rivista Computational Linguistics,  con il titolo di "A Context-theoretic Framework for Compositionality in Distributional Semantics". Si tratta di  uno studio matematico ispirato alla teoria del filosofo del linguaggio Ludwig Wittgenstein.

Il modello indica il modo in cui rappresentare parole e frasi usando le migliori combinazioni di vettori o sequenze di numeri. ''Le attuali tecniche usate dai motori di ricerca - ha spiegato l'esperto - usano già vettori per rappresentare le parole, ma funzionano bene solo per le singole parole o per le frasi molto brevi. Se si vuole estendere il metodo alle frasi lunghe o a interi periodi, il motore non riesce a fare la ricerca''.

Il modello fornisce invece una teoria su come rappresentare le parole e le frasi usando vettori, o sequenze di numeri. Un vettore identifica un punto in qualche spazio multi-dimensionale, che può avere centinaia o migliaia di dimensioni. 

"Per esempio, in questo momento possiamo avere in mente i vettori dei termini 'grande' e 'gatto', ma non conosciamo il modo migliore di combinarli per ottenere un vettore per il 'gatto grande'", ha spiegato il Dr. Clarke. "Ci sono un sacco di possibilità: per esempio si potrebbe aggiungere i due vettori insieme, ma poi 'gatto grande' vorrebbe dire lo stesso di 'grosso gatto', che non ha senso. La teoria identificherebbe quali metodi hanno come risultato vettori che si combinano con un senso. La nostra teoria vi dirà se il vostro metodo di combinare vettori è coerente con l'idea del significato  determinato dal contesto ". Secondo  Clarke, le teorie più attuali in questo campo si basano sull'idea che il significato delle frasi può essere rappresentato in termini di logica, ma questi non si possono cogliere le sottigliezze del linguaggio, come il rapporto tra le parole "come" e "amore". Rappresentando i significati delle parole usando i vettori ci consentirà di avere rapporti tra le parole che siano espressi come la distanza o l'angolo tra i vettori. 

Il modello 'identifica quale dovrebbe essere il migliore vettore per una frase identificando e combinando i vettori che hanno più senso'.


A Context-theoretic Framework for Compositionality in Distributional Semantics
Daoud Clarke
University of Hertfordshire


Nessun commento: