La passione per il mondo dei dati e la costante ricerca di nuove sfide hanno portato Alberto Danese, senior data scientist in Cerved, ad approfondire i più recenti sviluppi della data science anche al di fuori dell’ambito aziendale. Chi ama cimentarsi in questo settore trova una continua fonte di ispirazione su Kaggle, la piattaforma di Google per competizioni di Machine Learning.

Nei giorni scorsi, Alberto ha concluso brillantemente (con una “gold medal”) una competizione sull’identificazione delle frodi promossa da TalkingData, la più grande Big Data Service Company cinese, analizzando centinaia di milioni di dati con algoritmi di intelligenza artificiale. Grazie a questo traguardo e a precedenti risultati di vertice, Alberto è ora Kaggle Grand Master, primo in Italia ad entrare nel Top Tier che include i 113 migliori data scientist a livello mondiale.

Alberto, come sono organizzate le competizioni di Kaggle?

Kaggle è una piattaforma che mette in contatto:

  •  aziende “sponsor”, che definiscono un problema risolvibile con algoritmi avanzati e forniscono dati (anonimizzati);
  •  data scientist da tutto il mondo (oltre 82.000 “kagglers” attivi), che competono per trovare la migliore soluzione tramite algoritmi che vengono valutati con una metodologia oggettiva.

L’incentivo è rappresentato da premi in denaro o posti di lavoro. Ad esempio Facebook, prima dell’acquisizione della piattaforma da parte di Google avvenuta circa 1 anno fa, ha fatto diverse campagne di recruitment su Kaggle, preferendo quindi una verifica sul campo delle capacità del data scientist rispetto ad una classica analisi del curriculum vitae.

A quante competizioni hai partecipato?

Sinora ho partecipato a 6 competizioni, di cui una privata (riservata a chi ha una posizione elevata nel ranking dei kagglers). Oltre a TalkingData, ho preso parte a queste competizioni pubbliche:

  • Bosch (Production Line Performance), per individuare prodotti meccanici difettosi a partire da dati provenienti da sensori sulle linee di montaggio;
  • Sberbank (Russian Housing Market), per la stima degli immobili a Mosca sponsorizzata dalla prima banca russa;
  • BNP Paribas Cardif (Claims Management), per individuare “claims” anomali;
  • Homesite (Quote Conversion), per supportare un’assicurazione statunitense nel calcolare la probabilità di accettazione (conversione) di un preventivo.

Perché partecipi alle competizioni?

La possibilità di confrontarmi con data scientists da tutto il mondo e di imparare dai migliori è la prima motivazione, ma la visibilità a livello internazionale e i premi in palio sono indubbiamente un’ulteriore ragione per competere. Apprezzo in particolare la completa libertà sulle metodologie e sugli strumenti che si vogliono utilizzare (a patto che siano free ed open source) e la modalità di valutazione, completamente oggettiva e senza preclusioni per età, genere, esperienza o nazione di appartenenza. Le soluzioni migliori vengono almeno in parte rese pubbliche e quindi si può imparare molto sullo stato dell’arte nel mondo della data science.

Raccontaci di più sulla competizione di Talkingdata.

TalkingData è una azienda cinese che, come molte società attive nell’advertising online, deve affrontare elevati volumi di click fraudolenti. L’azienda gestisce in totale 3 miliardi di click al giorno, di cui il 90% è potenzialmente fraudolento, quindi non effettuato da un utente reale ma da una “click farm”.

data scientist

All’interno delle “click farm”, diffuse in molti paesi in via di sviluppo, diversi lavoratori sottopagati hanno l’unico, meccanico e ripetitivo compito di cliccare su banner e pubblicità che scorrono ininterrottamente su centinaia o migliaia di dispositivi. Sul mercato nero finiscono “pacchetti” di migliaia di click fraudolenti, con diverse tipologie di acquirenti: ad esempio, aziende che vogliono (con 0gni mezzo) far arrivare le proprie app mobile nella “Top 10” delle applicazioni più scaricate, per guadagnare visibilità e “veri” download.

La competizione di TalkingData ha riguardato la realizzazione di un algoritmo in grado di individuare questo tipo di frodi, ovvero di capire quali download fossero reali e quali fatti in modo artificioso. TalkingData ha messo a disposizione, tramite Kaggle, i dati di 3 giorni di download e ha chiesto di stimare per il 4° giorno quali download fossero veri e quali fraudolenti.

Spiegaci come hai fatto a stimare i download fraudolenti? Quali variabili erano più predittive?

Come sempre in queste competizioni, la prima attività è stata un’analisi approfondita del dataset fornito, cercando le modalità più efficienti per trattare un volume veramente imponente di dati. Già da questa analisi, alcune variabili si sono rivelate particolarmente predittive: ad esempio, alcune app sono spesso oggetto di frode e molti click fraudolenti arrivano da specifici indirizzi ip. Ma l’aspetto cruciale è stato andare oltre le variabili fornite: si è rivelato fondamentale studiare la successione temporale dei click. Detto in altri termini, il tempo che passa tra due click successivi segue dei pattern diversi tra click effettivi e frodi.

 Quanto ti impegna partecipare a una competizione?

Le competizioni richiedono molte ore di lavoro – alcuni kagglers arrivano anche a dedicare 60 ore a settimana! Personalmente dedico a una competizione un centinaio di ore di lavoro spalmate su due o tre mesi.

 A che punto è l’Italia su Kaggle?

Fino ad ora, non c’e’ mai stata una competizione organizzata da una azienda italiana, su oltre 280 competizioni lanciate, e penso che questo sia molto indicativo. Ciononostante, c’è una comunità di kagglers italiani, piccola ma in crescita, composta da alcuni data scientist in grado di ottenere anche ottimi risultati.

In Italia, penso che Kaggle non abbia lo stesso successo che ha nel resto del mondo principalmente per motivi culturali. Un caso che mi ha molto colpito è quello della società americana Zillow, leader statunitense nella stima del mercato immobiliare. Pur disponendo di un team interno di data scientist dedicato, Zillow ha messo in palio oltre 1 milione di dollari su Kaggle per migliorare i propri algoritmi. Già i risultati ottenuti al termine della prima fase della competizione (la seconda è tuttora in corso) hanno dimostrato come i migliori kagglers abbiano permesso a Zillow di ottenere una stima più precisa e il team interno si è messo all’opera per analizzare e integrare le soluzioni più performanti. A mio avviso, è un caso brillante di open innovation che andrebbe preso come riferimento.

Ci sono competizioni che ti interessano di più e altre di meno, oppure ti concentri sullo sviluppo degli algoritmi senza tener conto del campo di applicazione?

Il machine learning su Kaggle si applica principalmente a tre campi:

  • dati tabulari, come le competizioni descritte finora
  • analisi di immagini bidimensionali, tridimensionali e filmati. Ad esempio, una fondazione americana ha messo in palio 1 milioni di dollari per creare un modello predittivo che sia in grado di analizzare delle radiografie e identificare automaticamente la presenza di tumori ai polmoni
  • elaborazione del linguaggio naturale (in inglese NLP- Natural Language Processing). Recentemente si è conclusa una competizione per sviluppare un algoritmo in grado di identificare e bloccare automaticamente, all’interno di un forum, frasi di natura razzista, sessista, omofoba, etc.

Mi interesso principalmente alle competizioni con dati tabulari, che più si avvicinano  al lavoro che svolgo per Cerved, ma seguo anche le competizioni negli altri due ambiti.

Quanto partecipare a Kaggle aiuta il tuo lavoro in Cerved e quanto il lavoro in Cerved ti ha aiutato a vincere?

La sinergia è forte in entrambe le direzioni. Non c’è dubbio che una parte rilevante delle competenze che ho acquisito come data scientist su Kaggle siano direttamente utilizzabili sul lavoro. E viceversa, essere data scientist in una azienda come Cerved in cui dati e algoritmi sono centrali per il business, aiuta ad avere una vista più ampia sul mondo della data science, che va oltre gli aspetti più tecnici del machine learning.

Come vedi il tuo futuro di data scientist?

Il mondo del data scientist e dell’intelligenza artificiale evolve così velocemente che è difficile prevedere cosa succederà da qui a 3 anni. È proprio per questo che sono attivo su Kaggle: posso seguire i trend a livello dati, algoritmi e tecnologia, valutando anche quali risultati sono in grado di ottenere rispetto a data scientist da tutto il mondo. Penso che oggi sia fondamentale l’apprendimento continuo e che si debba evitare l’autoreferenzialità: una community aperta, variegata e internazionale, unita dalla passione per i dati, mi sembra un’ottima soluzione.