Stage Esterno: YAScttr : Yet Another Scutter

Descrizione

I dati di High Troughtput Sequencing sono tutti in formato testuale, l’output generato dai software di analisi bioinformatica e’ anch’ esso in formato testuale, quando si vogliono recuperare certi tipi di informazioni e’ sempre molto complicato dover gestire file e query con comandi GNU Linux. Prendendo ispirazione dal progetto bioruby-maf perchè non realizzare un sistema di indicizzazione che tenga conto si delle “posizioni genomiche” dei dati ma anche delle meta informazioni associate, nome dei geni, dei trascritti, tag definiti dagli utenti, metadati aggiuntivi? Questo eviterebbe di creare database specifici usati principalmente per interrogare vari dataset, garantirebbe una compressione delle informazioni senza necessita di installazioni particolari.

Luogo

Istituto Nazionale di Genetica Molecolare — Milano — http://www.ingm.org

Requisiti

Conoscenze basilari di Linux e Ruby.

Competenze acquisibili

Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità. Capacità di scrivere un programma che interagisca con componenti diverse.

Risultati attesi

Progettazione e implementazione di un database NoSQL per la gestione di dati di natura clinica.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi