Google Cognitive System
INDICE DEGLI ARGOMENTI
Come funziona RankBrain. Il machine learning
RankBrain. Come nasce
Si stima che ogni giorno in Google vengano effettuate più di 3 miliardi di ricerche. Di queste circa il 15% (ben 450 milioni) sono “nuove ricerche”, ossia sequenze di parole mai digitate prima da nessun altro utente. Tra queste, alcune sono ricerche con frasi/parole chiave molto lunghe e complesse. Una "matassa" difficile da dipanare, soprattutto se l'obiettivo (questo infatti il core business di Google) rimane quello di restituire all'utente i migliori risultati - in termini di Contenuti pertinenti e di qualità - per ogni ricerca.
Discende da questa premessa una delle novità più interessanti degli ultimi anni annunciata dall'Azienda di Mountain View, solitamente piuttosto "parca" di informazioni sulle proprie attività.
In un’intervista rilasciata a Bloomberg, il Senior Research Scientist di Google Greg Corrado ha fornito importanti delucidazioni su RankBrain - una parte del più completo e complesso algoritmo di Google chiamato “Hummingbird” - che ha la peculiarità di essere in grado di compiere - "al pari" (o quasi...) di un Essere Umano - due azioni: auto-apprendere ed interpretare, con un approccio ispirato all' Intelligenza Artificiale.
Google ha spesso parlato di più di 200 fattori di ranking principali che vengono presi in considerazione, e in linea generale si parla di “centinaia” di fattori. RankBrain è diventato quello che Google definisce il terzo fattore di ranking più importante per le pagine web. Rilasciato in modo graduale a inizio 2015, oggi è pienamente attivo e si stima che sia coinvolto nell'elaborazione di una grande fetta di query.
Come funziona RankBrain. Il machine learning
RankBrain in grado di interpretare le richieste dell’utente soprattutto laddove queste non contengono esattamente le parole che sono state ricercate ("query complesse"), offrendo risultati pertinenti e coerenti con la ricerca effettuata. Alla base di questa capacità d’interpretazione c’è l’abilità da parte dell’algoritmo di imparare a riconoscere le relazioni esistenti tra vari argomenti, ed essere in grado di selezionare - tra i contenuti disponibili - i migliori da presentare all’utente.
Ma come riesce a svolgere un'attività tanto complessa?
Già da tempo Google è in grado di trovare pagine senza termini esatti. Basti pensare che fino al alcuni anni fa, se si ricercava il termine “scarpa”, Google poteva non essere in grado di reperire contenuti che presentassero la variante plurale “scarpe”, in quanto tecnicamente due termini diversi. Grazie all'algoritmo di “stemming” Google ha in seguito "imparato" a riconoscere le variazioni singolare/plurale di un medesimo sostantivo (come nel caso di "scarpa" e "scarpe") così come di riconoscere che “correre” è una variazione di “corsa”. Oggi inoltre Google intercetta bene anche i sinonimi (ad esempio, “sneakers”, come sinonimo di “scarpe da corsa”) e ha anche acquisito la capacità di identificare differenze concettuali che gli consentano di discriminare le pagine che parlano di “Apple” come Azienda e quelle che parlano di mele (frutto).
Rankbrain, in questo senso, rappresenta un ulteriore perfezionamento in questo processo. Oltre all'algoritmo di stemming, si avvale del supporto di Knowledge Graph, il database lanciato da Google nel 2012 che mette in relazione tra loro fatti, persone e avvenimenti, creando così delle connessioni tra parole e concetti, e di altri basi di conoscenza, nonché dal machine learning e dal lavoro umano di programmazione. Tutta la fase di apprendimento di RankBrain avviene offline: elabora in batch le ricerche storiche su particolari argomenti per cercare di risalire al reale bisogno informativo dell'utente, ed apprende come predire i risultati da esse. Queste “predizioni” vengono testate e, se funzionano bene, l’ultima versione di RankBrain diventa effettiva.
RankBrain, dunque, quasi "al pari" di un Essere Umano, impara dall'esperienza: può identificare pattern tra ricerche complesse apparentemente non correlate e capire che in realtà sono molto simili tra loro. Un apprendimento che permetterà a Google di comprendere tutte le query future e individuare a quale argomento specifico si riferiscono. Ancor più importante, RankBrain può associare questi gruppi di query a gruppi di risultati che potrebbero soddisfare maggiormente chi ricerca.
E' assai probabile che RankBrain non si limiti soltanto a interpretare le query e filtrare i risultati di ricerca, ma contribuisca, anche, al computo del ranking insieme agli altri fattori del search engine, attribuendo un punteggio (score) alle pagine web sulla base della qualità dei loro contenuti.
Google ha dichiarato che al momento ci sono centinaia di persone coinvolte nel Progetto.
L'impatto nella Ricerca
RankBrain non gestisce tutte le ricerche, come solo l’algoritmo generale fa. Come evidenziato sopra, infatti, RankBrain è stato progettato per risolvere query complesse e perfezionare i risultati delle Serp. Appare già evidente che le sue capacità interpretative e di sintesi dei testi contribuiscano positivamente alla valutazione qualitativa dei contenuti.
Se RankBrain, come affermato da Google, è il terzo fattore più importante del ranking, quali sono i primi due?
Malgrado i solleciti, Google non ha mai risposto in modo chiaro a questa domanda. Si ritiene comunque che i primi due fattori siano:
- i backlink (pagerank): i link ad una pagina sono percepiti dall’algoritmo come una sorta di voto, apprezzamento da parte degli utenti;
- le parole contenute nella pagina (semantica), intese sia come keywords, sia come parole in grado di descrivere un concetto che verrà poi interpretato da RankBrain.
In generale, Hummingbird - l'algoritmo generale di Google di cui RankBrain fa parte - contiene anche altre "parti", di seguito elencate:
- Panda, Penguin e PayDay per combattere lo spam;
- Pigeon progettato per migliorare i risultati di ricerca Local;
- Top Heavy progettato per abbassare il ranking di siti ricchi di pubblicità;
- Mobile Friendly progettato per premiare le pagine web mobile-friendly;
- Pirate progettato per combattere le violazioni di copyright.
PER APPROFONDIMENTI SU RANKBRAIN, CLICCA QUI.
VUOI SAPERNE DI PIU'?
Iscriviti alla nostra newsletter per aggiornamenti su ComplexLab e le sue innovative metodologie di Contenuti Sostenibili e di Business Attractor Space