Stage Esterno: Il web semantico per i dati di sequenziamento

Descrizione

Cerciamo di capire come usare le ontologie disponibili per poter descrivere i dati di sequenziamento e le informazioni ad essi connesse. Partendo da una serie di dataset e risultati di analisi, cerchremo di valutare le possibili ontologie da utilizzare, convertiremo i dati in RDF e proveremo a usare alcuni triple store per interrogare rispondere a alle piu comuni domande del nostro laboratorio.

Luogo

Istituto Nazionale di Genetica Molecolare  — Milano — http://www.ingm.org

Requisiti

Conoscenze basilari di Linux, Ruby.

Competenze acquisibili

Risultati attesi

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi

Stage Esterno: YAScttr : Yet Another Scutter

Descrizione

I dati di High Troughtput Sequencing sono tutti in formato testuale, l’output generato dai software di analisi bioinformatica e’ anch’ esso in formato testuale, quando si vogliono recuperare certi tipi di informazioni e’ sempre molto complicato dover gestire file e query con comandi GNU Linux. Prendendo ispirazione dal progetto bioruby-maf perchè non realizzare un sistema di indicizzazione che tenga conto si delle “posizioni genomiche” dei dati ma anche delle meta informazioni associate, nome dei geni, dei trascritti, tag definiti dagli utenti, metadati aggiuntivi? Questo eviterebbe di creare database specifici usati principalmente per interrogare vari dataset, garantirebbe una compressione delle informazioni senza necessita di installazioni particolari.

Luogo

Istituto Nazionale di Genetica Molecolare — Milano — http://www.ingm.org

Requisiti

Conoscenze basilari di Linux e Ruby.

Competenze acquisibili

Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità. Capacità di scrivere un programma che interagisca con componenti diverse.

Risultati attesi

Progettazione e implementazione di un database NoSQL per la gestione di dati di natura clinica.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi

Stage Esterno: YABioPipe: Bioinformatics pipelines for everyone

Descrizione

Vogliamo realizzare una interfaccia web che permetta ai bioinformatici di sviluppare e monitorare pipeline bioinformatiche per il processamento di dati High Troughtput Sequencing (HTS) sul cluster di calcolo di INGM. Il cluster e’ implementato usanto TORQUE per la gestione delle risorse, Pipengine e’ il framework per la definizione delle pipeline, Torque_rm ( https://github.com/helios/torque_rm ) e’ un set di API per interfacciare Pipengine con torque tramite protocollo ssh. Parte dell’applicazione e’ gia presente ma richiede una refactoring e l’implementazione di nuove fetaure come la gestione degli utenti, maggiore interattivita durante la scrittura della pipeline, una gestione della cronologia delle analisi eseguite generando l’opportuna reportistica. Attualmente la scrittura e la gestione dei processi e’ eseguita tutta tramite riga di comando, l’idea e’ quella di creare una sorta di pannello di controllo e sviluppo per i bioinformatici di INGM.

Luogo

Istituto Nazionale di Genetica Molecolare  — Milano — http://www.ingm.org

Requisiti

Conoscenze basilari di Linux, Ruby.

Competenze acquisibili

Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità, utilizzo delle librerie javascript Bootstrap, metodologie di sviluppo agile, rudimenti di gestione e configurazione di un server di calcolo.

Risultati attesi

Una applicazione web funzionante che permetta la sottomissione di pipeline bioinformatiche, con un design snello e accattivante.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi

Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità, concetti di database documentali (NoSQL)

Stage Esterno: Clinic Meets Research: una applicazione web per la gestione dei dati clinici usati nella ricerca

Descrizione

Vogliamo realizzare un’ applicazione web che ci permetta di catalogare, organizzare e gestire i dati clinici associati ai campioni biologici che utilizziamo per gli esperimenti di ricerca interna. Dovremo Utilizzeremo il framework di sviluppo web Ruby on Rails, il database documentale CouchDB. Opzionale: esportazione della base di dati in formato RDF. https://github.com/helios/bioruby-rdf http://it.wikipedia.org/wiki/Resource_Description_Framework

Luogo

Istituto Nazionale di Genetica Molecolare  — Milano — http://www.ingm.org

Requisiti

Conoscenza di database.

Competenze acquisibili

Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità, concetti di database documentali (NoSQL)

Risultati attesi

Progettazione e implementazione di un database NoSQL per la gestione di dati di natura clinica.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi

Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità, concetti di database documentali (NoSQL)

Stage Interno: valutazione di programmi per il calcolo della trasformata di Burrows-Wheeler

Descrizione

LightStringGraph è un programma sviluppato dal nostro gruppo di ricerca per l’assemblaggio del genoma a partire da dati derivanti dalle nuove tecnologie di sequenziamento. Questo programma è basato sull’algoritmo chiamato trasformata di Burrows-Wheeler, e incorpora un programma che implementa tale algoritmo.

Recentemente è stata proposta una nuova implementazione alternativa: ropebwt. Questo stage ha come obiettivo modificare LightStringGraph per utilizzare ropebwt, valutandone le conseguenze in termini di tempi di calcolo.

Luogo

DISCo – Unimib

Requisiti

Conoscenze basilari del linguaggio di programmazione C++.

Competenze acquisibili

Capacità di lavorare su programmi scritti in C++. Capacità di usare un sistema di controllo di versione (git). Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità.

Risultati attesi

Aggiornamento del programma LightStringGraph. Realizzazione di una sperimentazione per valutare le modifiche apprortate.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it>

Tempo di realizzazione

3 mesi

Stage Interno: Rifattorizzazione programma per il calcolo di splicing alternativo

Descrizione

PIntron è un programma sviluppato dal nostro gruppo di ricerca per il calcolo della struttura esoni-introni di un gene. Questo software viene attualmente utilizzato per alimentare uno dei principali database biologici  dedicati agli effetti del fenomeno biologico chiamato splicing alternativo.

Per adattare questo software ai dati derivanti dalle nuove tecnologie di sequenziamento, diventa necessario pensare una rifattorizzazione del codice ed alla preparazione di un insieme di test (di regressione e unit test) per evitare di compromettere la qualità delle predizioni.

Luogo

DISCo – Unimib

Requisiti

Conoscenze basilari del linguaggio di programmazione C e di test dei programmi.

Competenze acquisibili

Capacità di lavorare su programmi scritti in C. Capacità di usare un sistema di controllo di versione (git). Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità.

Risultati attesi

Aggiornamento del programma PIntron. Realizzazione di una sperimentazione per valutare le modifiche apprortate.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> o Raffaella Rizzi <raffaella.rizzi@unimib.it>

Tempo di realizzazione

3 mesi

Stage Interno: Confronto di approcci per lo spliced alignment

Descrizione

Il problema dello spliced alignment consiste nel allineare una porzione di trascritto con un genoma di riferimento. II programma che affronta questo problema viene detto spliced aligner e realizza uno dei passi principali di un sistema di predizione di splicing alternativo: PIntron. 

L’obiettivo dello stage consiste nel sostituire in PIntron lo spliced aligner attualmente utilizzato con GSnap e verificare sperimentalmente gli effetti di tale sostituzione nei tempi di esecuzione e nella qualità delle predizioni.

Luogo

DISCo – Unimib

Requisiti

Conoscenze basilari del linguaggio di programmazione C.

Competenze acquisibili

Capacità di lavorare su programmi scritti in C. Capacità di eseguire e comprendere una valutazione statistica dei risultati di una sperimentazione. Capacità di usare un sistema di controllo di versione (git). Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità.

Risultati attesi

Aggiornamento del programma PIntron. Realizzazione di una sperimentazione per valutare le modifiche apprortate.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> o Raffaella Rizzi <raffaella.rizzi@unimib.it>

Tempo di realizzazione

3 mesi