Tesi: Sviluppo ed estensione della API per il database Ensembl

Descrizione

Il database Ensembl (www.ensembl.org) è uno dei principali database pubblici a livello mondiale che contiene informazioni sulle sequenze genomiche e relativi dati biologici delle principali specie oggetto di studio. L’API storica e ufficiale del database Ensembl è sviluppata da EBI (European Bioinformatics Institute, http://www.ebi.ac.uk) nel linguaggio Perl. In un processo di aggiornamento e di maggiore facilità d’accesso a questo tipo di informazioni, nel 2011 è stata pubblicata una nuova API per il database Ensembl nel linguaggio Ruby, che si basa sul pacchetto ActiveRecord di Rails. Questo progetto è ufficialmente supportato dalla comunità BioRuby (www.bioruby.org) e nel periodo di stage lo studente avrà la possibilità di lavorare a stretto contatto con gli autori di questo pacchetto e di essere introdotto nella realtà dei progetti OpenBio (www.open-bio.org). Durante il lavoro di stage sarà richiesto di estendere l’API esistente per supportare nuovi database di Ensembl non ancora inclusi, quali Compara e Functional Genomics. Particolarmente critica per questo tipo di API è la parte di testing, poichè il database Ensembl è un punto di riferimento per le analisi bioinformatiche e vi è la necessità di verificare la correttezza dei dati che sono restituiti dall’API. Inoltre, ogni 2-3 mesi circa, viene rilasciata da EBI una nuova versione di questo database, pertanto nel progetto di stage sarà prevista una fase di sviluppo mirata ad aggiungere all’API caratteristiche che consentano un più rapido aggiornamento del codice e una fase di testing più veloce ad ogni nuovo rilascio. A questo scopo lo studente utilizzerà la meta-programmazione offerta dal linguaggio Ruby e da ActiveRecord per generare automaticamente una parte di codice, sulla base dello schema del database Ensembl, e per rendere la suite di testing più flessibile possibile.

Luogo

Parco Tecnologico Padano — Lodi — http://www.tecnoparco.org

Requisiti

Familiarità con il linguaggio Ruby e con i database relazionali.

Competenze acquisibili

Esperienza con la meta-programmazione e lo sviluppo di un’API completa per accedere a dati complessi.

Risultati attesi

Sviluppo dell’API per accedere ai database Ensembl Compara e Ensembl FuncGen.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Francesco Strozzi <Francesco.strozzi@tecnoparco.org>

Tempo di realizzazione: 6 mesi

Stage: Creazione di un’applicazione in Rails per creare automaticamente sistemi di data warehouse per dati biologici.

Nell’ambito dei diversi progetti di ricerca attivi, vi è la necessità di sviluppare un sistema di data warehousing, che possa gestire ed immagazzinare i dati prodotti dalle nuove tecnologie di sequenziamento del genoma. Questo sistema dovrà rispondere a diverse caratteristiche, tra cui flessibilità e scalabilità per adattarsi alle grandi quantità di dati (centinaia di gigabyte) generati dai nuovi sequenziatori. Il sistema di data warehouse dovrà prevedere anche una parte di filtraggio e preprocessing dei dati in ingresso, oltre alla capacità di collegarsi a diversi database esistenti, per poter interrogare, correlare ed aggregare tra loro le informazioni provenienti da diverse fonti e relative ai dati biologici in esame. Durante il periodo di stage, lo studente dovrà sviluppare un’applicazione in Ruby on Rails che consenta di generare automaticamente uno scaffold funzionante per sistemi di data warehouse di questo tipo, inclusa la parte di visualizzazione via web. L’applicazione genererà lo scaffold sulla base di una serie di dati di configurazione iniziali e sarà distribuita tramite la piattaforma RubyGems, in modo che possa essere facilmente riutilizzabile ed applicabile a diversi progetti di ricerca.

Luogo

Parco Tecnologico Padano — Lodi — http://www.tecnoparco.org

Requisiti

Conoscenza DBMS e Linux. Familiarità con Ruby e framework Ruby on Rails.

Competenze acquisibili

Esperienza con la meta-programmazione, lo sviluppo di database e applicazioni web che supportino grandi quantità di dati. Acquisizione di competenze con il framework Ruby on Rails.

Risultati attesi

Sviluppo di un’applicazione in Rails per la creazione automatica di sistemi di data warehouse.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Francesco Strozzi <Francesco.strozzi@tecnoparco.org>

Tempo di realizzazione: 3 mesi

Analisi sperimentale di algoritmi di clustering

Il problema del clustering è uno dei più comuni in Informatica e consiste nel raggruppare elementi “simili” di un insieme, data una opportuna nozione di similarità. Abbiamo disegnato alcuni algoritmi ed effettuato un’analisi di natura teorica per tali algoritmi. Siamo interessati ad implementarli e a analizzare sperimentalmente la bontà di tali algoritmi.

Realizzazione di un database per la gestione di informazioni genomiche

Lo splicing alternativo è il meccanismo biologico che espande la complessità del proteoma negli organismi multicellulari. PIntron è un progetto di ricerca, sviluppato all’interno del laboratorio, che si occupa di sviluppare strumenti software per la predizione di eventi di splicing alternativo. L’obiettivo della tesi consiste nel disegnare una base di dati per la memorizzazione di dati biologici relativi a splicing alternativo e nello sviluppo di opportune interfacce di interrogazione ed esplorazione della base di dati.

Contatti: Prof. Paola Bonizzoni, Raffaella Rizzi

Requisiti: conoscenza di base di Linux, interesse nello sviluppo di applicazioni web in ambienti virtuali

Note: Questa proposta è principalmente orientata a studenti della laurea di primo livello (stage). Studenti della laurea magistrale interessati alla proposta sono pregati di discutere con i referenti per valutare possibili estensioni della stessa ai fini di tesi.