Otimização e Desenvolvimento de Ferramentas para BioInformática: Pipelines Metagenômicos, com Raquel Dias

13º Fórum de Informática SETREM - Anotações da segunda noite, trabalho de mestrado de Raquel Dias.

Atividades de um "Informata" na Biologia.
Raquel é formada em Biologia e está fazendo mestrado em Computação.
Laboratório de Alto Desempenho - PUCRS
Raquel.dias.001@acad.pucrs.br
www.lad.pucrs.br

Otimizações quantitativas
Processamento paralelo e distribuído
Otimização qualitativa
 - altera a estratégia para encontrar uma solução

APLICAÇÕES DE TI NA BIOLOGIA

Genética
 - Bases de dados (NCBI, GenBank)
 - Pós-Processamento Genômico
 - Pós-processamento metagenômico
 - Análise filogenética
 - Simulações evolutivas

Bioquímica
 - Bando de dados de proteínas (PDB)
 - Modelagem molecular
 - Visualização de proteínas
 - Dinâmica molecular (reações enzimáticas)

ÁREA DO TRABALHO DE MESTRADO DA RAQUEL

Metagenômica
 - Sequenciamento genético
 - Abordagens
   - Metatranscriptônicas
   - Sequenciamento baseado no gene 16S

Inicialmente são coletadas amostras ambientais, após estas amostras passam por um sequenciador (hardware - verifica pelo PH da amostra em um solvente - pega letra por letra) que gera um TXT com os dados genéticos.
Após o sequenciamento é necessário a análise dos dados genéticos para descobrir de que organismos são as sequencias genéticas encontradas, para isso utiliza-se bases de dados como NCBI.
Também é feito uma análise filogenética verificando mutações e comparando com outros organismos da mesma amostra etc.

Illumina: Sequenciamento em larga escala

Como melhorar estas etapas necessárias para analisar os dados genéticos?

 - Dados de entrada: bases nucleotídicas, várias amostras.

 - Pós-processamento metagenômico.

 - Pipelines metagenômicos: Mothur, RDP, Galaxy, MEGAN, RAST, PANGEA.

 - Versões offline são de código-aberto, PANGEA é um dos mais completos, por isso foi escolhido para o trabalho.

 - Linguagem PERL é ótima para trabalhar com strings/textos, então foi escolhida para manipulação das sequencias genéticas.
 - C foi escolhido para cálculos, processamentos.
 - Java para visualização dos dados.

Etapas - fases de processamento
1. Entrada de dados
1.1 Filtro de qualidade das sequencias genéticas

2. Métodos de Classificação de Espécies utilizados paralelamente para chegar ao resultado:
 - BLAST
 - RDP
 - SOAP2

3. Comparação dos resultados encontrados pelos 3 métodos para chegar a consenso.

4. Pós-processamento: análise e resumo dos resultados para apresentação ao usuário.

Otimizações execução
 - Paralelização do algoritmo BLAST que é o mais demorado e completo, distribui a execução em várias máquinas/processadores.

Melhorias
 - Resultados exibidos de forma mais clara, com mais dados, náo apenas o código do banco de dados.

Resultados
 - 500x mais rápido a execução
 - 125x mais rápido leitura dados NCBI
 - Aumentou o nível de certeza dos resultados

Atividades pendentes
 - publicação: BMC Bioinformatics

Exemplo apresentado: GenomaQuest - online, modificação do PANGEA.

Comentários

Postagens mais visitadas deste blog

Solução para problemas com impressora de cheque Bematech DP-20

SIOPE 2017 - Instalação e Restauração Cópia de Segurança

Solução dos Erros de FTP com PFSENSE