Stage Esterno: Gestione di sistemi di deployment basati su Docker in infrastrutture vincolate

Descrizione

All’interno dell’Istituto Nazionale di Genetica Molecolare (INGM), il laboratorio di Ricerca e Sviluppo di Bioinformatica, facente capo al programma “Integrative Biology”, ha l’obiettivo di sperimentare e sviluppare nuovi approcci alle analisi bioinformatiche, in particolare quelle relative al trattamento dei dati di Next Generation Sequencing (NGS). Una volta che i metodi e le procedure di analisi escono dalla fase sperimetale, queste devono essere consolidate e trasferite agli altri bioinformatici e/o analisisti presenti nel centro. Tali procedure potranno subire un utleriore raffinamento entrando poi a pieno titolo tra gli strumenti

utlizzabili da i ricercatori di INGM. Per far ciò è fondamentale che le installazioni dei software siano tracciate, gli ambineti di sviluppo e di analisi siano portabili e che le analisi bioinformatiche siano riproducibili. L’utilizzo dei sistemi di virtualizzaione (Proxmox/KVM) e di software deployment (Chef/Puppet) sono stati ampiamente esplorati e sono attualmente utilizzati con successo dal dipartimento Information Technology (IT) di INGM . Tali sistemi risultano però non sufficientemente flessibili e dinamici per le necessità di di frontiera per la ricerca. Di recente è stato introdotto nel mondo della virtualizzazione Docker, che riesce a combinare i vantaggi di un sistema di deployment portabile e riproducibile con la versatilità della virtualizzazione. Docker introduce il concetto di “contenitore” volto allo svolgimento di una unica funzione, nel nostro caso una analisi bioinformatica. Il contenitore è eseguito in un ambinete virtualizzato estremanente efficiente e leggero dove l’unica dipendenza richiesta con il sistema ospite è il kernel (GNU/Linux). La riproducibilità e tracciabilità della installazione è garantita da una immagine che viene creata a partire da un file (Dockerfile) che descrive nel dettaglio i componenti software, le modalità di

installazione e di esecuzione. In questo approccio ogni procedura di analisi può essere richiamata velocemente ed in maniera semplice. In questa ottica il laboratorio di R&D ha già iniziare la prototipizzazione di alcune procedure, un obiettivo parziale è la creazione di una libreria di Dockerfile per ognuna delle analisi da realizzare.

E’ in corso di realizzazione una nuova tipologia di cloud privato, su infrastruttura di proprietà di UniCredit che quest’ultima mette a disposizione di INGM, in orari di basso carico, per finalità di ricerca e nell’ambito delle proprie attività filantropiche. Diventa quindi importante sviluppare una strategia di deployment, basata su Docker, che tenga in considerazione i vincoli impliciti nell’utilizzo di un’infrastruttura che è sia sensibile che progettata per fini diversi dalla ricerca. Al tempo stesso, INGM e UniCredit stanno collaborando per esplorare come sia possibile ottimizzare l’utilizzo delle risorse dei due istituti.

La proposta di tesi prevede di sviluppare e implementare la strategia di deployment basata su Docker in modo da soddisfare le esigenze di INGM (principalmente facilità di adattamento a modifiche minori delle analisi da realizzare) e di semplificare la gestione, considerando la diversità delle risorse hw/sw da utilizzare.

Luogo

Istituto Nazionale di Genetica Molecolare  — Milano — http://www.ingm.org

Requisiti

Conoscenza di sistemi Linux

Competenze acquisibili

Utilizzo di Docker come sistema di deployment

Esperienza di utilizzo di infrastrutture private

Risultati attesi

Una libreria di configurazioni docker adatte al sistema di riferimento.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi

Tesi Esterna: Analisi della variazione di affinità miRNA::target causata da SNP

Descrizione

I polimorfismi al livello di singolo nucleotide (SNP), possono causare la predisposizione o l’insorgenza di malattie attraverso il loro effetto sull’espressione di determinati geni, a livello post-trascrizionale. Recenti studi indicano infatti che gli SNP influiscono sull’efficienza dei micro RNA (miRNA) che si legano alla porzione UTR di alcuni geni (target), causando l’inibizione nella loro espressione. Tuttavia, nonostante il crescente numero di risultati pubblicati nelle banche dati (es. dbSNP) che mostrano l’associazione tra SNP e malattie, ad oggi vi sono solo poche risorse per analizzare la relazione miRNA::target. In particolare, le risorse disponibili per l’identificazione di queste modificazioni sono soggette ad alcuni problemi: 1) tipicamente utilizzano un singolo tool di predizione per identificare i siti target, nonostante l’impiego di un approccio integrato possa produrre risultati più accurati; 2) considerano solo le variazioni nei siti target, mentre le variazioni nelle sequenze dei miRNA possano portare a diversi meccanismi di regolazione; 3) scartano le variazioni nelle sequenze dei pre-miRNA che possono influenzare il processo di maturazione, ostacolando la corretta formazione del miRNA.
In questa tesi il candidato dovrà sviluppare un sistema di analisi bioinformatica per studiare l’impatto che gli SNP possono avere sulla relazione miRNA::target. L’obiettivo del lavoro è realizzare un database dotato di un’interfaccia web che, una volta rilasciato, permetterà ai biologi l’accesso ai risultati ottenuti.

Luogo

Istituto di Tecnologie Biomediche — Consiglio Nazionale delle Ricerche, Segrate (Mi)
http://www.itb.cnr.it

Requisiti

Conoscenza di sistemi Linux, conoscenza linguaggio di programmazione JAVA.

Competenze acquisibili

Inserimento in un gruppo attivo in ambito bioinformatico, introduzione all’utilizzo di strumenti per analisi di dati biologici e apprendimento dello sviluppo di database e interfacce web tramite JAVA.

Risultati attesi

Un database con relativa interfaccia web che permetta agli utenti di valutare l’impatto di uno SNP sulla funzionalità di un miRNA.

Per informazioni contattare

Paola Bonizzoni <paola.bonizzoni@unimib.it> oppure Ivan Merelli <ivan.merelli@itb.cnr.it>

Tempo di realizzazione

6 mesi

Stage Esterno: Il web semantico per i dati di sequenziamento

Descrizione

Cerciamo di capire come usare le ontologie disponibili per poter descrivere i dati di sequenziamento e le informazioni ad essi connesse. Partendo da una serie di dataset e risultati di analisi, cerchremo di valutare le possibili ontologie da utilizzare, convertiremo i dati in RDF e proveremo a usare alcuni triple store per interrogare rispondere a alle piu comuni domande del nostro laboratorio.

Luogo

Istituto Nazionale di Genetica Molecolare  — Milano — http://www.ingm.org

Requisiti

Conoscenze basilari di Linux, Ruby.

Competenze acquisibili

Risultati attesi

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi

Stage Esterno: YAScttr : Yet Another Scutter

Descrizione

I dati di High Troughtput Sequencing sono tutti in formato testuale, l’output generato dai software di analisi bioinformatica e’ anch’ esso in formato testuale, quando si vogliono recuperare certi tipi di informazioni e’ sempre molto complicato dover gestire file e query con comandi GNU Linux. Prendendo ispirazione dal progetto bioruby-maf perchè non realizzare un sistema di indicizzazione che tenga conto si delle “posizioni genomiche” dei dati ma anche delle meta informazioni associate, nome dei geni, dei trascritti, tag definiti dagli utenti, metadati aggiuntivi? Questo eviterebbe di creare database specifici usati principalmente per interrogare vari dataset, garantirebbe una compressione delle informazioni senza necessita di installazioni particolari.

Luogo

Istituto Nazionale di Genetica Molecolare — Milano — http://www.ingm.org

Requisiti

Conoscenze basilari di Linux e Ruby.

Competenze acquisibili

Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità. Capacità di scrivere un programma che interagisca con componenti diverse.

Risultati attesi

Progettazione e implementazione di un database NoSQL per la gestione di dati di natura clinica.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi

Stage Esterno: YABioPipe: Bioinformatics pipelines for everyone

Descrizione

Vogliamo realizzare una interfaccia web che permetta ai bioinformatici di sviluppare e monitorare pipeline bioinformatiche per il processamento di dati High Troughtput Sequencing (HTS) sul cluster di calcolo di INGM. Il cluster e’ implementato usanto TORQUE per la gestione delle risorse, Pipengine e’ il framework per la definizione delle pipeline, Torque_rm ( https://github.com/helios/torque_rm ) e’ un set di API per interfacciare Pipengine con torque tramite protocollo ssh. Parte dell’applicazione e’ gia presente ma richiede una refactoring e l’implementazione di nuove fetaure come la gestione degli utenti, maggiore interattivita durante la scrittura della pipeline, una gestione della cronologia delle analisi eseguite generando l’opportuna reportistica. Attualmente la scrittura e la gestione dei processi e’ eseguita tutta tramite riga di comando, l’idea e’ quella di creare una sorta di pannello di controllo e sviluppo per i bioinformatici di INGM.

Luogo

Istituto Nazionale di Genetica Molecolare  — Milano — http://www.ingm.org

Requisiti

Conoscenze basilari di Linux, Ruby.

Competenze acquisibili

Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità, utilizzo delle librerie javascript Bootstrap, metodologie di sviluppo agile, rudimenti di gestione e configurazione di un server di calcolo.

Risultati attesi

Una applicazione web funzionante che permetta la sottomissione di pipeline bioinformatiche, con un design snello e accattivante.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi

Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità, concetti di database documentali (NoSQL)