Incontro di Presentazione di Stage e Tesi

Il gruppo di ricerca AlgoLab (http://www.algolab.eu/), principalmente associato con il laboratorio di Bioinformatica e Calcolo Naturale, propone Stage e Tesi riguardanti la gestione e analisi di grandi quantità di dati (big data analysis).
Le proposte permettono agli studenti di acquisire competenze e conoscenze spendibili in ogni ambito professionale, quali Ruby, Ruby on Rails, Hadoop, Puppet, e VirtualBox.
La presentazione delle proposte da parte dei supervisori interni e esterni (Istituto Nazionale di Genetica Molecolare e Parco Tecnologico Padano) sarà:

Martedì 29 Maggio 2012 alle ore 11.30
aula Seminari – Ed. U14

Tutti gli studenti interessati (o semplicemente curiosi) sono invitati a partecipare.
Per informazioni: Gianluca Della Vedova <gianluca.dellavedova@unimib.it>

Alcune proposte sono:

  • Sviluppo ed estensione API per il database Ensembl

  • Puppet per il provisioning in ambiente virtualizzato – cloud

  • Creazione di un’applicazione in Rails per creare automaticamente sistemi di data warehouse per dati biologici

  • Creazione di un’applicazione Rails per l’annotazione e condivisione di dati e informazioni Immunologiche

  • Realizzazione di un ambiente di virtualizzazione per la Bioinformatica

Ph.D. course: Massive data analysis in the Web and post-genomic era

Lectures (April-May 2012):

1. Introduction Part I
April 16th (h. 10.30)
Paola Bonizzoni (Università di Milano-Bicocca)

The first lectures aim to provide the theoretical bases required to face the research topics introduced in  the course, as well as the main technological motivations of big data. The course is oriented to computer scientists, physicists, statisticians, genetic epidemiologists, bioinformaticians,  genome biologists and aims to open a discussion on the challenges and opportunities in next-generation sequencing data analysis and massive data analysis.
Massive data, deep sequencing and indexing techniques. Software tools.

2. Inferring Genetic Diversity from NGS
April 16th (h. 15.30) and 17th (h. 9.30)
Niko Beerenwinkel (ETH Zurich)

With high-coverage next-generation sequencing (NGS), the genetic diversity of mixed samples can be probed at an unprecedented level of detail in a cost-effective manner. However, NGS reads tend to be erroneous and they are relatively short, complicating the detection of low-frequency variants and the reconstruction of long haplotype sequences. In this lecture, I will introduce computational and statistical challenges associated witgenetic diversity estimation from NGS data. I will discuss several approaches to their solution based on probabilistic graphical models and on combinatorial optimization techniques. Two major applications will be presented: the genetic diversity of HIV within patients and the genetic diversity of cancer cells within tumors.
Part 1: Detecting low-frequency single-nucleotide variants (SNVs).
Part 2: Local haplotype inference and global quasispecies assembly.

Slides

3. Introduction Part II
April 23rd (h. 13:00) and 24th (h. 14:00)
Gianluca Della Vedova (Università di Milano-Bicocca)

Moore’s Law: current trends and the big data revolution. Approaches to work splitting: parallel algorithms, map reduce, data streaming.

Slides

4. The Paradigm of Data Stream for Next Generation Internet
May 2nd (14.00-16.00) and 3rd (9.00-11.00)
Irene Finocchi (Università La Sapienza – Roma)

Data stream algorithmics has gained increasing popularity in the last few years as an effective paradigm for processing massive data sets. A wide range of applications in computational sciences generate huge and rapidly changing streams of data that need to be continuously monitored and processed in one or few sequential passes, using a limited amount of working memory. Despite the heavy restrictions on time and space resources imposed by this data access model, major progress has been achieved in the last ten years in the design of streaming algorithms for several fundamental data sketching and statistics problems. The lectures will overview this rapidly evolving area and present basic algorithmic ideas, techniques, and challenges in data stream processing.Slides

5. Next Generation Sequencing analysis
May 8th (9.30-13.30)
Nadia Pisanti (Università di Pisa)

New Sequencing Technologies have dramatically decreased costs and thus opened the way to new challenges in applications such as metagenomics and transcriptome analysis by means of sequences; in particular, low costs of re-sequencing applied to the human genome opens the way to new issued in personalized medicine. As a consequence, a new phase has been opened for genome research. From the point of view of the computer scientist, the management of huge amount of data, the small size of sequenced fragments (with respect to previous technologies), and the new applications that bring down on sequences lots of data that used to be managed with arrays, has led to several new problems in string algorithms. We will try to give an overview on them and on possible approaches to address these problems.

Slides NGS Slides SV e CNV

6. Combinatoria delle parole ed applicazioni alla biologia teorica
May 29th (afternoon)
Giuseppe Pirillo (IASI, CNR)

Incontro di Presentazione di Stage e Tesi

Il gruppo di ricerca AlgoLab (http://www.algolab.eu/), principalmente associato con il laboratorio di Bioinformatica e Calcolo Naturale, propone Stage e Tesi riguardanti la gestione e analisi di grandi quantità di dati (big data analysis).
Le proposte permettono agli studenti di acquisire competenze e conoscenze spendibili in ogni ambito professionale, quali Ruby, Ruby on Rails, Hadoop, Puppet, e VirtualBox.
La presentazione delle proposte da parte dei supervisori interni e esterni sarà:

Giovedì 2 Febbraio 2012 alle ore 14.30
aula T023 – Ed. U14

Tutti gli studenti interessati (o semplicemente curiosi) sono invitati a partecipare.
Per informazioni: Gianluca Della Vedova <gianluca.dellavedova@unimib.it>

Il materiale presentato durante l’incontro è scaricabile:

Tesi: Creazione di un’applicazione Rails per l’annotazione e condivisione di dati e informazioni Immunologiche

Descrizione

Il nostro centro di ricerca ha come risorsa strategica la conoscenza immunologica derivante dall’esperienza dei ricercatori e dalle informazioni che ogni giorno altri laboratori producono sotto forma di articoli scientifici. Diversi database pubblici descrivono gran parte della conoscenza oggi disponibile ma non possono descrivere in dettaglio i singoli esperimenti che vengono condotti e soprattutto non possono rappresentare le informazioni frammentate e dettagliate che i singoli ricercatori hanno in uno specifico campo non ancora ampiamente esplorato oppure pubblicato. L’idea del progetto è quella di costruire uno strumento nella forma di applicazione web, utilizzando il framework Ruby on Rails,  che permetta di catalogare, organizzare e stabilire relazioni per esperimenti, letteratura oppure conoscenza interna. Dovrà essere possibile interrogare lo strumento anche in modo automatico con delle API web-resting, in modo da poter integrare i dati di analisi con quelli pubblici e annotati internamente.

In questo progetto il datastore potrebbe essere anche un sistema NoSQL.

Opzionale: esportazione della base di dati in formato RDF. https://github.com/helios/bioruby-rdf http://it.wikipedia.org/wiki/Resource_Description_Framework

Luogo

Istituto Nazionale di Genetica Molecolare  — Milano — http://www.ingm.org

Requisiti

Conoscenza di base di Ruby, database.

Competenze acquisibili

Capacità di relazionarsi con persone aventi competenze eterogenee, lavoro di team, tempistiche di consegna e valutazione di fattibilità, framework Ruby on Rails per la creazione di applicazioni web e tecniche di meta-programmazione in Ruby, concetti di database documentali (NoSQL)

Risultati attesi

Un applicazione web interna che permetta la catalogazione della conoscenza

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

6 mesi

Stage: Puppet per il provisioning in ambiente virtualizzato – cloud

Descrizione

Un laboratorio di Bioinformatica è un ambiente dinamico dove nuovi software, librerie e strumenti in genere devono essere aggiornati e disponibili in breve tempo. Inoltre, la possibilità di costruire in casa un sistema Cloud consente di avere un numero variabile di istanze di macchine che devono essere amministrate in modo dinamico. La gestione di queste richieste se non affrontata nel modo opportuno può, a lungo andare, introdurre delle criticità nel comparto IT e conseguentemente nei servizi di calcolo e strategici che questo eroga. Utilizzando tecniche di provisionig: deployment di configurazioni, applicativi e servizi, è possibile rispondere in modo efficiente e elastico a queste esigenze.  Uno strumento di successo in questo ambito, OpenSource e scritto in Ruby, è Puppet che tramite un DSL (Domain Specific Language) permette con estrema semplicità di descrivere e gestire anche situazioni particolarmente complesse. In questo progetto lo studente verrà affiancato al reparto IT e seguirà le fasi di realizzazione di una configurazione base per poi svilupparne una ad hoc.

Luogo

Istituto Nazionale di Genetica Molecolare  — Milano — http://www.ingm.org

Requisiti

Conoscenza di sistemi Linux

Competenze acquisibili

Configurazione e creazione di un sistema di provisioning master slave con Puppet.
Installazione e configurazione automatica di macchine virtuali (Linux)

Risultati attesi

Un sistema Puppet funzionante con una serie di “ricette” per la gestione di differenti situazioni: database, web server e sviluppo.

Per informazioni contattare

Gianluca Della Vedova <gianluca.dellavedova@unimib.it> oppure Raoul Bonnal <bonnal@ingm.org>

Tempo di realizzazione

3 mesi