ERBD 2009: Integração de Dados: Resumo Palestra

Olá pessoal, como já havia comentado em outro post estou participando esta semana do V Escola Regional de Banco de Dados, em Ijuí - RS. Por enquanto vou deixar aqui minhas anotações de uma excelente palestra que tivemos esta noite sobre integração de dados com Bernadette Farias Lóscio.

MOTIVAÇÃO

- Distribuição
- Heterogeneidade
- Autonomia
- Transparência

SISTEMAS DE INTEGRAÇÃO DE DADOS

Ficam entre a aplicação e as fontes de dados

FONTES DE DADOS (governamentais, núcleos de pesquisas, ...) <-> CAMADA DE INTEGRAÇÃO DE DADOS (mediação, data warehouses, p2p, web services, ...) <-> APLICAÇÃO...APLICAÇÃO

- O número de fontes pode aumentar.
- As fontes de dados podem ser estruturados ou não
- Heterogeneidade em diferentes níveis

A área de integração de dados vem evoluindo a muito tempo, passando por vários tipos de sistemas.
1. Aplicação de banco de dados
2. Sistemas de banco de dados multiplos
3. sistemas de mediação
4. sistemas baseados em agentes
5. sistemas baseados em ontologias
6. integração de dados usando web services
7. dataspaces
8. ...

INTEGRAÇÃO DE DADOS É UM PROCESSO

1. Entender: Entender os dados, as propriedades, valores e significados. Metadados são fundamentais.
2. Padronizar: Defniir terminologias, como lidar com objetos e valores inconsistentes, definir esquema integrado.
3. Especificar: Configurar o mecanismo de integração, definir as fontes a serem integradas, mapeamentos entre as fontes locais e o sistema integrado.
4. Executar: Integrar!!!! (materialização x mediação) Os dados são extraídos das fontes, tratados e armazenados em um repositório.

Um esquema integrado é definido pelos requisitos do usuário, por isso fica em constantes atualizações, fontes podem ser adicionadas ou removidas.

O objetivo da área de integração de dados não é criar uma aplicação que automatize todo o processo, mas sim sistemas que facilitem esse trabalho.

ARQUITETURAS DE MEDIADORES

O mediador explora o conhecimento representado em um conjunto ou subconjunto de dados e gera informações para aplicações residentes em uma camada superior. Também podem ter tradutores entre os mediadores e base de dados, que hoje pode ser o XML extraído diretamente das bases de dados relacionais que são heterogeneas, isso facilita para que o sistema de integração seja mais simples e use apenas o XML.

Teóricamente, o mediador recebe uma consulta, repassa na forma correta para os tradutores, cada tradutor vai precisar entender a linguagem da base de dados que estará obtendo as informações para que na hora em que venha uma consulta ele possa consultar na base e retornar os dados em XML para o mediador fazer a integração com os dados recebidos das outras fontes de dados e passar para a aplicação.

Um sistema de integração de dados baseado em mediadores é uma trpla G, S, M onde:
- G é o esquema global: requisitos dos usuários...
- S é o esquema fonte: as fontes de dados...
- M é o mapeamento entre G e S: um mapeamento é necessário para que possa ser transformada uma consulta feita ao mediador em subconsultas para as fontes de dados, são fundamentais para o processo de integração de dados.

Geração dos mapeamentos semanticos
1. identificação de correspondencias (matchings)
2. geração das expressões de mapeamento (mappings)

Após a identificar os dados da consulta nas fontes locais, ou seja, traduzir a consulta original feito na fonte global para que possa ser entedido nas subconsultas e feito essas consultas, surge outro problema, como saber se os dados vindos das fontes locais são equivalentes? Pedro da fonta A é o mesmo Pedro da fonte B?

GAV: Os mapeamentos são feitos das fontes globais para as fonteis locais, facilitando nas consultas.

LAV: Agora você tem os elementos das fontes locais que são associados as visões da fonte global, neste caso é mais fácil a remoção e inserção de fontes mas complica para as consultas.

Exemplos de Soluções/Aplicações

- Projeto Integra (Grupo de Pesquisa em Banco de Dados - UFPE)
Projeto feito para estudos...

- Projeto Speed (Grupo de Pesquisa em Banco de Dados - UFPE)
Super rede p2p com vários mediadores, ontologias para distribuição, evolução do Integra mas virou praticamente outro sistema.

- Projeto FlagelLink (Grupo de Pesquisa em Banco de Dados - UFC & NUGEN - UECE)

INTEGRAÇÃO SEMÂNTICA

Agrupar e combinar dados de diferentes fontes considerando uma semântica explícita

ONTOLOGIAS

As ontologias vem como uma informaçao a mais pra deixar explícita a informação de determinada fonte de dados.

Com as ontologias você pode modelar um domínio através de classes e propriedades e você pode fazer inferência, definido restrições (regras) para criar a estrutura das bases de conhecimentos, onde você pode fazer novas inferências e descobrir informações a partir das informações já conhecidas, isso que diferencia as ontologias das bases de dados relacionais.

Exemplo: CEARA -> faz parte -> BRASIL; BOLÍVAR -> é namorado -> DILÉIA

Abordagens da integração semântica

- uma única ontologia
ontologia global -> fontes de dados

- múltiplas ontologias
(ontologia local -> fonte de dados) <-> (ontologia local -> fonte de dados) <-> (ontologia local -> fonte de dados)

- abordagem híbrida
vocabulário compartilhado -> ontologias locais -> bases de dados

CONTRIBUIÇÕES

- RelOnto: um sistema para geração de ontologias a partir de banco de dados relacionais [Lopes, 2009]
- MeMo: uma estratégia para merging múltiplo de ontologias considerando a similaridade [Araújo, 2009]

DATASPACES

Tentativa de solucionar os problemas de integração de dados de uma forma diferente, com tempos e custo menor.

Utilizar um mecanismo de busca para realizar consultas podem retornar muitas coisas que não correspondem ao que sua consulta realmente queria... google... solução: utilizar um sistema de integração de dados, problema é muito trabalho... um meio termo, ter um sistema não tão preciso que vá aprendendo com o tempo, isso é um dataspace, com resultados desde o início, no início a qualidade é mais baixa mas tende a aumentar com o passar do tempo e p feedback dos usuários... google quando guarda os links mais clicados para determinada consulta...

Diferenças dos dataspaces para outros modelos de sistemas

- mapeamentos semânticos e esquema de mediação serão criados automaticamente (porém podem ser aproximadas)
- diferentes mecanismos de consulta (respostas aproximadas ou parciais)

CONCLUSÕES

- Integração de dados está em todo lugar, é um problema que está em diversas aplicações.
- É um problema antigo.
- Soluções existentes são adaptadas para novos contextos, com a evolução das tecnologas as soluções precisam ser adequadas.
- Difícil prover soluções "automáticas"
- Prover soluções "aproximadas"(???)
- Novos desafios... sempre

Divulgação: evento na área de banco de dados em Fortaleza, de 05 a 09 de Outubro. mais informações no site www.sbbd-sbes2009.ufc.br

Profa. Dra. Bernadette Farias Lóscio
Site pessoal: http://www.lia.ufc.br/~bernafarias
E-mail: bernafariaslia.ufc.br

Comentários

Postagens mais visitadas deste blog

Solução para problemas com impressora de cheque Bematech DP-20

Como bloquear Facebook Youtube no Mikrotik

Iniciar sessão automaticamente no Xubuntu 13.04