Bolívar Butzke: Otimização e Desenvolvimento de Ferramentas para BioInformática: Pipelines Metagenômicos, com Raquel Dias

13º Fórum de Informática SETREM - Anotações da segunda noite, trabalho de mestrado de Raquel Dias.

Atividades de um "Informata" na Biologia.
Raquel é formada em Biologia e está fazendo mestrado em Computação.
Laboratório de Alto Desempenho - PUCRS
Raquel.dias.001@acad.pucrs.br
www.lad.pucrs.br

Otimizações quantitativas
Processamento paralelo e distribuído
Otimização qualitativa
- altera a estratégia para encontrar uma solução

APLICAÇÕES DE TI NA BIOLOGIA

Genética
- Bases de dados (NCBI, GenBank)
- Pós-Processamento Genômico
- Pós-processamento metagenômico
- Análise filogenética
- Simulações evolutivas

Bioquímica
- Bando de dados de proteínas (PDB)
- Modelagem molecular
- Visualização de proteínas
- Dinâmica molecular (reações enzimáticas)

ÁREA DO TRABALHO DE MESTRADO DA RAQUEL

Metagenômica
- Sequenciamento genético
- Abordagens
- Metatranscriptônicas
- Sequenciamento baseado no gene 16S

Inicialmente são coletadas amostras ambientais, após estas amostras passam por um sequenciador (hardware - verifica pelo PH da amostra em um solvente - pega letra por letra) que gera um TXT com os dados genéticos.
Após o sequenciamento é necessário a análise dos dados genéticos para descobrir de que organismos são as sequencias genéticas encontradas, para isso utiliza-se bases de dados como NCBI.
Também é feito uma análise filogenética verificando mutações e comparando com outros organismos da mesma amostra etc.

Illumina: Sequenciamento em larga escala

Como melhorar estas etapas necessárias para analisar os dados genéticos?

- Dados de entrada: bases nucleotídicas, várias amostras.

- Pós-processamento metagenômico.

- Pipelines metagenômicos: Mothur, RDP, Galaxy, MEGAN, RAST, PANGEA.

- Versões offline são de código-aberto, PANGEA é um dos mais completos, por isso foi escolhido para o trabalho.

- Linguagem PERL é ótima para trabalhar com strings/textos, então foi escolhida para manipulação das sequencias genéticas.
- C foi escolhido para cálculos, processamentos.
- Java para visualização dos dados.

Etapas - fases de processamento
1. Entrada de dados
1.1 Filtro de qualidade das sequencias genéticas

2. Métodos de Classificação de Espécies utilizados paralelamente para chegar ao resultado:
- BLAST
- RDP
- SOAP2

3. Comparação dos resultados encontrados pelos 3 métodos para chegar a consenso.

4. Pós-processamento: análise e resumo dos resultados para apresentação ao usuário.

Otimizações execução
- Paralelização do algoritmo BLAST que é o mais demorado e completo, distribui a execução em várias máquinas/processadores.

Melhorias
- Resultados exibidos de forma mais clara, com mais dados, náo apenas o código do banco de dados.

Resultados
- 500x mais rápido a execução
- 125x mais rápido leitura dados NCBI
- Aumentou o nível de certeza dos resultados

Atividades pendentes
- publicação: BMC Bioinformatics

Exemplo apresentado: GenomaQuest - online, modificação do PANGEA.

Bolívar Butzke

Otimização e Desenvolvimento de Ferramentas para BioInformática: Pipelines Metagenômicos, com Raquel Dias

Nenhum comentário:

Postar um comentário