Current students


ALFONSI TOMMASOCycle: XXXVI

Section: Computer Science and Engineering
Advisor: CERI STEFANO
Tutor: CAPPIELLO CINZIA

Major Research topic:
Efficient, scalable pipelines for continuously integrated Big Data collections

Abstract:
Tra gli effetti della recente esplosione dei casi di SARS-CoV-2 vi è un sensibile aumento dell’interesse da parte della comunità scientifica verso lo studio delle malattie virali, dei meccanismi di diffusione e dei vaccini. In questo scenario si colloca il mio percorso di ricerca. Infatti, nel corso dei primi 6 mesi, mi sono dedicato allo studio delle sorgenti pubbliche dei dati (GenBank, COG-UK, NMDC e GISAID) ed alla definizione di una pipeline per permettere il download, la trasformazione, l’arricchimento e l’inserimento delle loro sequenze all’interno di un unico database; questo processo permette l’accesso uniforme alle informazioni provenienti da molteplici sorgenti eterogenee, ed è stato propedeutico all’integrazione con gli epitopi, ovvero sequenze caratteristiche del virus che, se riconosciute dagli anticorpi, scatenano la risposta immunitaria. Quanto discusso finora rappresenta le fondamenta per lo sviluppo di strumenti di analisi e di esplorazione dei dati (ad esempio, ViruSurf, EpiSurf e VirusViz, sviluppati dai membri del gruppo di ricerca di Genomic Computing del Politecnico di Milano). Nel corso di questa ricerca, ci si propone quindi il duplice obiettivo di espandere l’integrazione fra le varie sorgenti genomiche - ad esempio aggiungendo dati relativi alle caratteristiche genomiche e fenotipiche dell’organismo ospite, o nuove tipologie di dati che saranno rese disponibili in futuro - ma anche quello di fornire gli strumenti metodologici e statistici adatti a derivare nuova conoscenza utile a partire dai dati osservabili. In particolare, io sono stato responsabile della pipeline di acquisizione ed integrazione dei dati, e responsabile di update periodici che richiedono ottimizzazioni e trasformazioni dei dati. Questo percorso è stato propedeutico al mio PhD, in quanto mi ha permesso di sviluppare delle tecniche per la gestione, l’integrazione e l’analisi di Big Data, con particolare riferimento al contesto biologico.