Stage Interno: Diff da Allineamento

Descrizione

Uno degli strumenti principali per il controllo di versione è diff, che permette di calcolare e visualizzare le modifiche fra due file. Diff deve riuscire a mostrare un insieme minimale di modifiche da apportare al primo file per ottenere il secondo file.

La strategia principale è basata sul problema del calcolo della sottosequenza comune più lunga, ma più recentemente sono state introdotto altre strategie più precise (sebbene con tempi di calcolo più elevati), quali patience diff e histogram diff.

La proposta di stage si prefigge di utilizzare algoritmi noti di allineamento di sequenze, inizialmente introdotti in Bioinformatica, per realizzare una nuova implementazione di diff che riesca a migliorare ulteriormente i risultati ottenuti da patience diff.

Luogo

DISCo

Requisiti

Conoscenza basilare di C. Conoscenza di git.

Competenze acquisibili

Capacità di progettare e realizzare una implementazione di un algoritmo

Capacità di collaborare in un progetto open source con gruppo di sviluppatori internazionali

Risultati attesi

Implementazione di un nuovo diff da incorporare in LibXDiff (https://github.com/git/git/tree/master/xdiff)

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it>

Tempo di realizzazione

3 mesi

Stage Esterno: Gestione di configurazioni Docker

Descrizione

All’interno dell’Istituto Nazionale di Genetica Molecolare (INGM), il laboratorio di Ricerca e Sviluppo di Bioinformatica, facente capo al programma “Integrative Biology”, ha l’obiettivo di sperimentare e sviluppare nuovi approcci alle analisi bioinformatiche, in particolare quelle relative al trattamento dei dati di Next Generation Sequencing (NGS). Una volta che i metodi e le procedure di analisi escono dalla fase sperimetale, queste devono essere consolidate e trasferite agli altri bioinformatici e/o analisisti presenti nel centro. Tali procedure potranno subire un utleriore raffinamento entrando poi a pieno titolo tra gli strumenti

utlizzabili da i ricercatori di INGM. Per far ciò è fondamentale che le installazioni dei software siano tracciate, gli ambineti di sviluppo e di analisi siano portabili e che le analisi bioinformatiche siano riproducibili. L’utilizzo dei sistemi di virtualizzaione (Proxmox/KVM) e di software deployment (Chef/Puppet) sono stati ampiamente esplorati e sono attualmente utilizzati con successo dal dipartimento Information Technology (IT) di INGM . Tali sistemi risultano però non sufficientemente flessibili e dinamici per le necessità di di frontiera per la ricerca. Di recente è stato introdotto nel mondo della virtualizzazione Docker, che riesce a combinare i vantaggi di un sistema di deployment portabile e riproducibile con la versatilità della virtualizzazione. Docker introduce il concetto di “contenitore” volto allo svolgimento di una unica funzione, nel nostro caso una analisi bioinformatica. Il contenitore è eseguito in un ambinete virtualizzato estremanente efficiente e leggero dove l’unica dipendenza richiesta con il sistema ospite è il kernel (GNU/Linux). La riproducibilità e tracciabilità della installazione è garantita da una immagine che viene creata a partire da un file (Dockerfile) che descrive nel dettaglio i componenti software, le modalità di

installazione e di esecuzione. In questo approccio ogni procedura di analisi può essere richiamata velocemente ed in maniera semplice. In questa ottica il laboratorio di R&D ha già iniziare la prototipizzazione di alcune procedure, un obiettivo parziale è la creazione di una libreria di Dockerfile per ognuna delle analisi da realizzare.

E’ in corso di realizzazione una nuova tipologia di cloud privato, su infrastruttura di proprietà di UniCredit che quest’ultima mette a disposizione di INGM, in orari di basso carico, per finalità di ricerca e nell’ambito delle proprie attività filantropiche. Diventa quindi importante sviluppare una strategia di deployment, basata su Docker, che tenga in considerazione i vincoli impliciti nell’utilizzo di un’infrastruttura che è sia sensibile che progettata per fini diversi dalla ricerca. Al tempo stesso, INGM e UniCredit stanno collaborando per esplorare come sia possibile ottimizzare l’utilizzo delle risorse dei due istituti.

La proposta di tesi prevede di sviluppare e implementare la strategia di deployment basata su Docker in modo da soddisfare le esigenze di INGM (principalmente facilità di adattamento a modifiche minori delle analisi da realizzare) e di semplificare la gestione, considerando la diversità delle risorse hw/sw da utilizzare.

Luogo

Istituto Nazionale di Genetica Molecolare  — Milano — http://www.ingm.org

Requisiti

Conoscenza di sistemi Linux

Competenze acquisibili

Utilizzo di Docker come sistema di deployment

Esperienza di utilizzo di infrastrutture private

Risultati attesi

Un sistema di gestione di tali configurazioni.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi

Stage Esterno: Gestione di sistemi di deployment basati su Docker in infrastrutture vincolate

Descrizione

All’interno dell’Istituto Nazionale di Genetica Molecolare (INGM), il laboratorio di Ricerca e Sviluppo di Bioinformatica, facente capo al programma “Integrative Biology”, ha l’obiettivo di sperimentare e sviluppare nuovi approcci alle analisi bioinformatiche, in particolare quelle relative al trattamento dei dati di Next Generation Sequencing (NGS). Una volta che i metodi e le procedure di analisi escono dalla fase sperimetale, queste devono essere consolidate e trasferite agli altri bioinformatici e/o analisisti presenti nel centro. Tali procedure potranno subire un utleriore raffinamento entrando poi a pieno titolo tra gli strumenti

utlizzabili da i ricercatori di INGM. Per far ciò è fondamentale che le installazioni dei software siano tracciate, gli ambineti di sviluppo e di analisi siano portabili e che le analisi bioinformatiche siano riproducibili. L’utilizzo dei sistemi di virtualizzaione (Proxmox/KVM) e di software deployment (Chef/Puppet) sono stati ampiamente esplorati e sono attualmente utilizzati con successo dal dipartimento Information Technology (IT) di INGM . Tali sistemi risultano però non sufficientemente flessibili e dinamici per le necessità di di frontiera per la ricerca. Di recente è stato introdotto nel mondo della virtualizzazione Docker, che riesce a combinare i vantaggi di un sistema di deployment portabile e riproducibile con la versatilità della virtualizzazione. Docker introduce il concetto di “contenitore” volto allo svolgimento di una unica funzione, nel nostro caso una analisi bioinformatica. Il contenitore è eseguito in un ambinete virtualizzato estremanente efficiente e leggero dove l’unica dipendenza richiesta con il sistema ospite è il kernel (GNU/Linux). La riproducibilità e tracciabilità della installazione è garantita da una immagine che viene creata a partire da un file (Dockerfile) che descrive nel dettaglio i componenti software, le modalità di

installazione e di esecuzione. In questo approccio ogni procedura di analisi può essere richiamata velocemente ed in maniera semplice. In questa ottica il laboratorio di R&D ha già iniziare la prototipizzazione di alcune procedure, un obiettivo parziale è la creazione di una libreria di Dockerfile per ognuna delle analisi da realizzare.

E’ in corso di realizzazione una nuova tipologia di cloud privato, su infrastruttura di proprietà di UniCredit che quest’ultima mette a disposizione di INGM, in orari di basso carico, per finalità di ricerca e nell’ambito delle proprie attività filantropiche. Diventa quindi importante sviluppare una strategia di deployment, basata su Docker, che tenga in considerazione i vincoli impliciti nell’utilizzo di un’infrastruttura che è sia sensibile che progettata per fini diversi dalla ricerca. Al tempo stesso, INGM e UniCredit stanno collaborando per esplorare come sia possibile ottimizzare l’utilizzo delle risorse dei due istituti.

La proposta di tesi prevede di sviluppare e implementare la strategia di deployment basata su Docker in modo da soddisfare le esigenze di INGM (principalmente facilità di adattamento a modifiche minori delle analisi da realizzare) e di semplificare la gestione, considerando la diversità delle risorse hw/sw da utilizzare.

Luogo

Istituto Nazionale di Genetica Molecolare  — Milano — http://www.ingm.org

Requisiti

Conoscenza di sistemi Linux

Competenze acquisibili

Utilizzo di Docker come sistema di deployment

Esperienza di utilizzo di infrastrutture private

Risultati attesi

Una libreria di configurazioni docker adatte al sistema di riferimento.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi

Tesi Esterna: Analisi della variazione di affinità miRNA::target causata da SNP

Descrizione

I polimorfismi al livello di singolo nucleotide (SNP), possono causare la predisposizione o l’insorgenza di malattie attraverso il loro effetto sull’espressione di determinati geni, a livello post-trascrizionale. Recenti studi indicano infatti che gli SNP influiscono sull’efficienza dei micro RNA (miRNA) che si legano alla porzione UTR di alcuni geni (target), causando l’inibizione nella loro espressione. Tuttavia, nonostante il crescente numero di risultati pubblicati nelle banche dati (es. dbSNP) che mostrano l’associazione tra SNP e malattie, ad oggi vi sono solo poche risorse per analizzare la relazione miRNA::target. In particolare, le risorse disponibili per l’identificazione di queste modificazioni sono soggette ad alcuni problemi: 1) tipicamente utilizzano un singolo tool di predizione per identificare i siti target, nonostante l’impiego di un approccio integrato possa produrre risultati più accurati; 2) considerano solo le variazioni nei siti target, mentre le variazioni nelle sequenze dei miRNA possano portare a diversi meccanismi di regolazione; 3) scartano le variazioni nelle sequenze dei pre-miRNA che possono influenzare il processo di maturazione, ostacolando la corretta formazione del miRNA.
In questa tesi il candidato dovrà sviluppare un sistema di analisi bioinformatica per studiare l’impatto che gli SNP possono avere sulla relazione miRNA::target. L’obiettivo del lavoro è realizzare un database dotato di un’interfaccia web che, una volta rilasciato, permetterà ai biologi l’accesso ai risultati ottenuti.

Luogo

Istituto di Tecnologie Biomediche — Consiglio Nazionale delle Ricerche, Segrate (Mi)
http://www.itb.cnr.it

Requisiti

Conoscenza di sistemi Linux, conoscenza linguaggio di programmazione JAVA.

Competenze acquisibili

Inserimento in un gruppo attivo in ambito bioinformatico, introduzione all’utilizzo di strumenti per analisi di dati biologici e apprendimento dello sviluppo di database e interfacce web tramite JAVA.

Risultati attesi

Un database con relativa interfaccia web che permetta agli utenti di valutare l’impatto di uno SNP sulla funzionalità di un miRNA.

Per informazioni contattare

Paola Bonizzoni <paola.bonizzoni@unimib.it> oppure Ivan Merelli <ivan.merelli@itb.cnr.it>

Tempo di realizzazione

6 mesi

Stage Esterno: Il web semantico per i dati di sequenziamento

Descrizione

Cerciamo di capire come usare le ontologie disponibili per poter descrivere i dati di sequenziamento e le informazioni ad essi connesse. Partendo da una serie di dataset e risultati di analisi, cerchremo di valutare le possibili ontologie da utilizzare, convertiremo i dati in RDF e proveremo a usare alcuni triple store per interrogare rispondere a alle piu comuni domande del nostro laboratorio.

Luogo

Istituto Nazionale di Genetica Molecolare  — Milano — http://www.ingm.org

Requisiti

Conoscenze basilari di Linux, Ruby.

Competenze acquisibili

Risultati attesi

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi