il fenomenale google



dal  manifesto - 28 Agosto 2005

Il fenomenale Google

Google è davvero un fenomeno: tecnico, economico, sociale e culturale.
Tanti lo usano quotidianamente e lo apprezzano, al punto da non poterne più
fare a meno per il proprio lavoro o per il proprio diletto, ma pochi lo
conoscono fino in fondo. Vediamolo più da vicino
FRANCO CARLINI
Google è davvero un fenomeno: tecnico, economico, sociale e culturale.
Tanti lo usano quotidianamente e lo apprezzano, al punto da non poterne più
fare a meno per il proprio lavoro o per il proprio diletto, ma pochi lo
conoscono fino in fondo. «To Google» è diventato un verbo, che in Italiano
qualcuno traduce con «fare un Google», un po' come dire «mi faccio un
Bancomat». Tecnicamente è «solo» un motore di ricerca per l'Internet, una
search engine, e cioè un sito internet (
www.google.com, ma anche
www.google.it e altre versioni nazionali) collegandosi al quale si può
chiedere l'elenco delle pagine web che contengono una o più parole chiave,
che definiscono un argomento di nostro interesse. Basta inserire le parole
cercate nell'apposita riga (una form) e cliccare sul pulsante «cerca».
Questa operazione è detta dagli informatici una query,ovvero
l'interrogazione di un archivio (database). Per esempio battendo «nascita
voltaire» si ottiene in 0,03 secondi (tre centesimi di secondo!) un elenco
di pagine dove compaiono entrambe le parole, nel caso specifico più di 26
mila pagine web, una enormità. Ognuna compare come un link e una breve
descrizione; cliccando su uno di questi link si salta alla pagina web
relativa.
Una prestazione del genere è il risultato di un sistema molto complicato di
hardware e software: per ottenerla sono stati necessari molti passi:
esplorazione, memorizzazione, indicizzazione. Una moltitudine di software,
invisibili a noi utenti e chiamati spider (ragni che percorrono la
ragnatela del web) o crawler, sono perennemente in azione: entrano nei
siti, ne prelevano i contenuti che verranno memorizzati sui computer di
Google, seguono i link che le pagine contengono e ne estraggono le
informazioni significative, con le quali costruiscono un indice; quando uno
immette le parole di ricerca «nascita» e «voltaire», il motore di Google
legge l'indice e al volo recupera tutte le pagine in cui c'è l'una e
l'altra; con questo elenco, estratto dal gigantesco indice generale, lo
stesso motore costruisce sul momento una pagina web che viene inviata al
nostro computer, e poi una seconda, una terza, una millesima, ognuna
contenente 10 link.

Google, nato come società in Califonia nel 1998, grazie a due studenti di
Stanford, Larry Page e Sergei Brin, non è il primo motore di ricerca in
ordine di tempo: altri illustri esemplari di questa specie già c'erano,
come il famoso Altavista o come Yahoo! (anch'esso figlio di una coppia di
studenti di Stanford, David Filo and Jerry Yang), ma ha alcune
caratteristiche che lo hanno reso il motore più usato e frequentato dal
popolo del web; si valuta che il 50% degli utenti americani lo utilizzi. Il
tutto senza aver speso una lira in campagne pubblicitarie, ma solo per
effetto del passaparola tra le persone.

Gli elementi che lo hanno portato al primo posto sono due soprattutto: la
semplicità della sua interfaccia, che si presenta come una pagina molto
semplice, il cui «peso» è di soli tremila caratteri, e una immagine, il
logo colorato della parola Google che occasionalmente si arricchisce di
figurine ironiche (li si vede all'indirizzo
http://www.google.com/intl/en/holidaylogos.html). Con tale scarna presenza
Google ci dice che è lì per fare una cosa sola: cercare per noi, senza
pretendere di essere un portale, né un negozio online, né cento altre cose.
In realtà Google è anche queste molte cose, ma per ora continua a
enfatizzare la sua essenzialità e questa è una virtù apprezzata dai
navigatori del web.

Ma la seconda dote, la vera origine del successo, è la genialità dei
criteri con cui viene costruito l'indice, in base alle parole immesse per
la ricerca. Come è facile immaginare, chi usa i motori di ricerca spera e
vuole trovare i risultati per lui significativi nella prima pagina di
risposta o al massimo nella seconda; è difficilissimo che qualcuno vada a
leggere la millesima o la decimillesima pagina. E dunque devono essere ben
centrati i risultati. Per esempio il suo grande rivale, Yahoo!, alla
richiesta «nascita voltaire» offre al terzo posto il link a una pagina che
contiene sì le due parole, ma separate e senza rapporto tra di loro, si
tratta della scheda biografica di tale Marco Dionigi, dove compare la sua
data di nascita e, tra i suoi dischi preferiti, Crackdown di K. Voltaire.

Come faccia Google ha dare quasi sempre le risposte utili ai primi posti è
un (relativo) mistero e comunque un segreto industriale che la società
californiana gelosamente protegge. Ma il criterio generale con cui opera il
suo algoritmo, chiamato PageRank, è tuttavia noto. Si tratta di un puro
fatto statistico: ai primi posti in classifica Google mette le pagine web
che sono molto citate da altre pagine, ovvero quelle che sono molto
«linkate» dagli altri siti.
L'ipotesi sottostante è semplice e in fondo banale: anche senza entrare nel
merito del valore dei contenuti dei singoli siti, si può ragionevolemente
supporre che se una pagina riceve molti link da altre pagine, questo
avvenga perché è particolarmente ben fatta e nota, proprio come avviene per
le pubblicazioni scientifiche dove la comunità della ricerca implicitamente
«vota» per i più importanti articoli di un certo settore, citandoli a sua
volta come riferimento. Questo è il principale, ma non unico criterio con
cui Google presenta i suoi risultati e si basa dunque sulla raccolta delle
informazioni (i link) che gli autori sparpagliati delle pagine web hanno a
loro volta prodotto. E' perciò insieme il frutto di una attività collettiva
e spontanea di classificazione di conoscenza scritta e di un intelligente
sistema di indici messo in atto da Google.
Il segreto sui dettagli dell'algoritmo viene mantenuto sia per non essere
troppo facilmente imitati dai motori di ricerca concorrenti che per evitare
che gli autori di siti web costruiscano troppo agevolmente delle pagine con
lo scopo precipuo di arrivare al primo posto in classifica anche quando non
lo meritano. Su questo terreno il braccio di ferro è continuo, come
accennato nel box in questa stessa pagina: gli autori di certi siti ansiosi
di visibilità ricorrono a tutti i trucchi possibili e i programmatori di
Google, a loro volta, continuano a modificare il loro algoritmo per
annullare tali sforzi; in palio per Google c'è la sua reputazione (essere
il sito più affidabile e utile).
Ma è anche il motore di ricerca più completo? Nei giorni scorsi si è accesa
in proposito una polemica: agli inizi di agosto, infatti, il portavoce di
Yahoo!, Tim Mayer, ha dichiarato che il suo motore ha schedato
(indicizzato) più 20 miliardi di pagine web (19,2 di documenti, 1,6 di
immagini), largamente sopravanzando Google che invece scheda soltanto 11,3
miliardi di pagine. Sono numeri in ogni caso clamorosi, anche se va notato
che purtroppo entrambi i motori, per quanti sforzi facciano, coprono solo
una parte minoritaria del web: agli spider infatti sfuggono inevitabilmente
moltissime pagine che i siti creano dinamicamente e che non sono conservate
come file statici e stabili. Questa parte invisibile della rete viene detta
anche Deep Web, o Dark Web, cioè oscura come la misteriosa materia oscura
del cosmo.
Ma è vera la vittoria quantitativa di Yahoo! su Google? Immediatamente
alcuni ricercatori dell'università dell'Illinois a Urbana Champaign, hanno
fatto dei confronti più serrati e messo in discussione la metodologia con
cui sono stati ricavati: la questione è abbastanza tecnica e la risposta
univoca non c'è, anche perché, come si è detto, quello che conta nella
prestazione dei motori è la loro capacità di offrire nelle prime pagine di
risposta dei risultati rilevanti e ben mirati. La polemica d'agosto in ogni
caso ha dei riflessi economici perché entrambe le aziende e la terza grande
rivale, Microsoft con il suo sito Msn, operano per il profitto, il quale
deriva loro principalmente dagli inserzionisti pubblicitari.

Su questo secondo fronte, quello del fenomeno economico, Google e gli altri
motori di ricerca hanno prodotto una innovazione significativa: se in
precedenza le pubblicità sul web avvenivano esclusivamente in forma di
striscioncini (banner) inseriti nelle pagine, nei motori la pubblicità si
indirizza verso la conquista delle prime posizioni in classifica: sono dei
link a pagamento, che producono gran parte del fatturato dei motori di
ricerca e anche qui è in gioco la reputazione e la serietà: in Google tali
indirizzi compaiono in una colonna più piccola, a destra, separata e
visibilmente distinta dai risultati neutrali e obbiettivi costruiti
dall'algoritmo; in altri motori di ricerca la distinzione visuale non è
altrettanto netta, anche se compare la scritta «sponsored sites» e il
lettore frettoloso può essere tratto in inganno. Sono differenze sottili e
minime, ma importanti.
I risultati economici lo sono altrettanto: Google è andato in borsa giusto
un anno fa, con un'offerta di azioni a 85 dollari l'una; nel luglio scorso
ha toccato vette stratosferiche, superando i 310 dollari per azione, con
una capitalizzazione superiore agli 80 miliardi di dollari. Nella settimana
di ferragosto ha offerto al mercato di borsa altri 14,2 milioni di azioni,
per un valore presumibile di 4 miliardi di dollari. Giusto per continuare a
fare gli spiritosi, il numero di azioni offerte è esattamente 14,159,265 e
non è scelto a caso: corrisponde alle prime 8 cifre decimali del famoso pi
greco della geometria, che vale 3,14159265 («il volume della sfera qual è?
quattro terzi pigreco erre tre», dice la filastrocca).
In precedenza, in occasione della prima andata in borsa, i finanzieri di
Google avevano presentato alla Sec (la Consob americana) un prospetto in
cui affermavano che la somma che prevedevano di raccogliere era pari a
2.718,281.828 dollari, una cifra «copiata» da un altro numero famoso, il
numero irrazionale «e» dell'esponenziale, che appunto vale 2,718281828.
Cabale numeriche a parte, la rivale Yahoo in borsa vale di meno, attorno ai
33 dollari, per una capitalizzazione di «soli» 47 miliardi. Sono cifre
davvero speciali, che ricordano il boom della New Economy, anche se allora
andavano alle stelle delle aziende basate solo sulle promesse e le
suggestioni, mentre oggi si parla di imprese solide, con grossi fatturati:
nell'ultimo trimestre quello di Google è stato di 1,3 miliardi di dollari e
quello di Yahoo! di 1,2.

Mai più senza Google (2)

Potenza e limiti dell'enciclopedia universale che è Internet. L'«abilità»
dei motori di ricerca è ancora perfettibile, ma anche i «difetti» riescono
spesso a fornirci un'informazione che non ci si aspettava di dover cercare
FRANCO CARLINI

Google fenomeno, si è detto domenica scorsa, e tale è effettivamente e non
solo dal punto di vista tecnico-informatico e da quello
economico-finanziario. Google, e in generale i «motori di ricerca» («search
engines»), sono un fatto culturale e sociale, penetrato nelle abitudini di
vita di milioni di persone che fino a 10 anni fa vivevano tranquillamente
senza ma che oggi non ne potrebbero più fare a meno, anche quando non ne
sono pienamente soddisfatti. Semmai vorrebbero di più e di meglio, i
googlemaniaci. Agli inizi degli anni '90 del secolo scorso i motori di
ricerca non c'erano semplicemente perché non c'era il web, e dunque non si
poneva nemmeno il problema di catalogare i contenuti digitali della rete.
Ma non appena il numero di siti cominciò a crescere significativamente,
ricoprendo le più diverse categorie dello scibile umano, la necessità sorse
spontanea negli utenti stessi. Anche i programmi di navigazione, del resto,
offrivano e offrono la possibilità di memorizzare sul proprio computer
personale il nome e l'indirizzo dei siti visitati (questo elenco
personalizzato viene chiamato «Preferiti» o «Bookmark»), anche
organizzandoli in categorie e contenitori (folder).

E' da questa pratica per uso personale che i due studenti di Stanford che
idearono Yahoo! - David Filo e Jerry Yang - trassero l'idea di farne un
servizio pubblico e un business: andrà dunque ricordato che Yahoo! nacque
prima come elenco di siti, organizzati in 14 categorie, che come motore di
ricerca automaticamente alimentato dai computer. Era quella che viene
chiamata una «directory». Gli elenchi, la catalogazione e il breve
riassunto descrittivo di ogni singolo sito venivano fatti a mano, da un
gruppo di giovani dipendenti, con tutti i vantaggi e gli svantaggi del
caso: vantaggi dell'intelligenza umana, svantaggi di lentezza e di
incompletezza.
Nell'agosto del 2005 Yahoo! annunciava di avere «indicizzato» 20 miliardi
di pagine; per farlo «a mano», dedicando ad ognuna un solo minuto e
operando 24 ore su 24, occorrerebbero 38mila anni-uomo.
Con il web, esplorato e catalogato in automatico dai motori di ricerca,
sembra essersi realizzato il sogno che fu a suo tempo di Ted Nelson, un
sognatore che già nel 1965 immaginava di poter legare tutti i documenti del
mondo in una grande rete, consultabile e annotabile con un sistema che egli
chiamava Docuverse. Se si preferisce è la grande e universale biblioteca
alessandrina, è l'enciclopedia universale del sapere e della conoscenza
umane. Così grande che non è possibile trovarvi nulla senza l'ausilio di
cataloghi e indici, ma con la differenza drammatica che il tutto è
perennemente instabile e in movimento: pagine nuove che nascono in ogni
istante, pagine che vengono cancellate o spostate su altri computer. Per
non dire dei criteri di classificazione di materiali così diversi e
anomali: dai messaggi nei forum alle immagini e ai video, dai saggi
accademici ai rapporti delle Nazioni Unite. Impresa disperata per un
qualsiasi scientifico archivista il quale per fare bene il proprio lavoro
impiega anche due ore a compilare la scheda bibliografica di un banale
libro di carta (operazione che banale non è, peraltro).

Dunque i motori di ricerca, anche i migliori per quantità e qualità, sono
per ora (e chissà per quanto tempo ancora) largamente insoddisfacenti:
sovente deludono le aspettative, affiancano testi di grande valore ad altri
insignificanti o da buttare. E tuttavia sono preziosi, anzi indispensabili
a chiunque operi nella cultura, nell'informazione, negli affari, insomma
agli operatori della conoscenza (knowledge workers), i quali poi oggi sono
la grande maggioranza di tutti noi.

In questo Google e i suoi cugini. sono davvero tipici della rete internet:
così come essa non pretende di offrire una qualità totale e garantita di
connettività, limitandosi a assicurare il «best effort», il miglior sforzo
possibile nelle condizioni date, così anche le search engines non
promettono l'impossibile, ma danno quello che possono dare, allo stato
attuale della tecnologia e del sapere classificatorio (tradotto in
algoritmi di ricerca e indicizzazione).
Anche così, peraltro, gli effetti sono sconvolgenti (chi scrive non ama le
enfasi eccessive, ma confessa di rimanere tuttora e ogni volta stupito
dalle prestazioni di Google). E non si tratta solo di efficienza, ci sono
altri più sottili e importanti effetti culturali.

L'efficienza è presto detta e riguarda la possibilità di trovare in pochi
decimi di secondo informazioni utili su fatti, persone, date, eventi: da
quando poi Google offre una specifica modalità di ricerca per le notizie
(Google News), agli operatori dell'informazione si dispiega un universo di
testate da tutto il mondo. Un'altra sezione (Google Scholar) è invece
mirata alle pubblicazioni degli studiosi e in questo modo viene evitata la
fastidiosa situazione di avere mescolate, nelle risposte, pagine serie e
pagine poco significative. Eccetera, non resta che esplorarne le varie
possibilità di Google e dei suoi concorrenti. Di solito gli utilizzatori
«basici» non lo fanno, ma se nella pagina iniziale di Google si clicca il
pulsante «altro...», si apre un universo mondo di prestazioni aggiuntive.
Tutto ciò peraltro modifica sensibilmente il rapporto che ognuno ha con le
idee e con i documenti che le trasmettono. Intanto c'è un elemento
importante di democrazia dell'accesso: quanto era conservato in archivi
cartacei e remoti, ora è globale, leggibile e raggiungibile da studiosi e
cittadini di ogni parte del mondo, persino dalla poverissima Africa Sub
Sahariana. Poi c'è un fatto di trasparenza: di qualsiasi organizzazione o
azienda o di molte persone si possono trovare anche le informazioni più
minute, talora imbarazzanti; sono dati che anche prima del web venivano
depositati in luoghi pubblici, ma con il web e i suoi motori intanto si
scopre che esistono e una volta scoperti li si può consultare, per fare una
campagna, per avviare un'inchiesta: «Information must be free», si diceva
all'inizio dell'internet ed è effettivamente più libera di prima, malgrado
i molti tentativi di recintarla e renderla proprietaria o di nuovo
esclusiva.

C'è poi un terzo effetto positivo e non previsto, dato che è frutto non già
delle virtù, ma dei difetti dei motori di ricerca: poiché questi sono lungi
dall'essere perfetti, in risposta alle query degli utilizzatori
restituiscono sovente dei link non esattamente mirati alla richiesta. E' un
difetto che gli utenti possono evitare raffinando la loro ricerca e meglio
imparando come giocare con gli operatori logici, in particolare con l'AND
logico: se si inserisce «malaria» AND «vaccini» si ottiene infatti come
risultato solo le pagine che contengono sia la parola «malaria» che la
parola «vaccini», così escludendo quelle che contengono solo una delle due.
In ogni caso la poca abilità degli utenti, congiunta con le imperfezioni
della schedatura, produrranno sempre una quota di risposte che non ha
strettamente a che fare con la richiesta, ma questi errori esporranno
provvidenzialmente l'utente a altri temi e argomenti correlati e magari
interessanti. Per esempio uno interessato ai vaccini per la malaria
potrebbe scoprire che ci sono anche le reti per la malaria: imbevute di
pesticidi e utilizzate come zanzariere, riducono vistosamente le infezioni.

Un quarto effetto, forse non voluto, deriva dal fatto che spesso i motori
di ricerca presentano sia dei testi importanti, magari di premi Nobel, che
testi minori, assolutamente laterali, depositati sul web da persone senza
qualifica: talora saranno inutili e ripetitivi, talaltra porteranno a
scoprire esperienze e punti di vista interessanti di persone fino ad ora
ignote e lontane.