Minhas anotações sobre o mini-curso "Funções de similaridade e suas aplicações" ministrado pela Carina F. Dorneles (dorneles@upf.br), durante o V ERBD.
FUNÇÕES DE SIMILARIDADE
- Como calcular a similaridade?
Similaridade é uma coisa subjetiva e o computador te muita dificuldade de definir se é ou não.
- Consulta
Executar consultas sobre várias bases de dados
- Integração
Efetuar integração dos dados
- Data Cleaning
Efetuar a impeza dos dados antes de inserir em uma nova base como por exemplo DWs
Exemplo de consulta SQL utiliazando a função de similaridade levenshtein
select artigo from bdbcomp where levenshtein (autor, 'agma machado traina') > 0,75
// vai buscar artigos de autores com 75% de similaridade no nome 'agma machado traina'.
Exemplo da mesma função para integração...
levenshtein ("league of ... Action","League of ... Sci-Fi") >= 0.78
// integrar aquilo cujo linar de similaridade maior que 78
É bastante usado Data WareHouses na parte de Data Cleaning, limpeza de dados, exemplo:
levenstein('ijuí - RS','ijuí - RGS')
// pra elimiar inconsistências, erros de digitação etc, vai trocar os RGS por RS se não me engano :D
Avaliaçao de uma função
- Revocação
- Precisão
- Discernabilidade
SIMILARIDADE X DISTÂNCIA
A função de similaridade tem dois parametros e retorna um valor, um escore entre 0 e 1, quanto maior for mais similar são entre si.
A função de distância tem dois parametros e retorna um valor, mas o escore vai de zero até o infinito, quanto menor o valor do escore, maior a similariedade.
Fórmula para transformar distância em similaridade:
similaridade = 1 - (valor de distância normalizado)
Ferramenta
- Similarity Metrics Testing Suite
* valores atomicos: strings
- baseadas em caracter
- baseadas em Token
* valores agregados
- uso em expressões algébricas
- uso em algoritmos
SVM - Inteligência artificial - tuplas - faz algoritmos para testar com funções de distancias partes de atributos para saber se os dados sao similares, criando vetores de valores que sao enviados para SVM fazer a comparação e dizer se os dados sao duplicados ou não.
ROTEIRO
- consultas por similaridade
- integração de dados
- data cleaning
- mineração de dados
SGBDs que implemetam funções de similaridade
POSTGRESQL
MYSQL
DB2
ORACLE
FUNÇÕES NO POSTGRESQL
- levenshtein
- soundex
- dmetaphone (fonético tbm)
APLICATIVO WEKA - FREE
www.CS.WAIKATO.AC.NZ/WEKA
Ferramenta de mineração, vários algoritmos para técnicas mais conhecidas, extensível, algoritmos podem ser usados para compor outras aplicações, é necessário
DEMOSTRAÇÃO
queens.db.toronto.edu/project/spider/demo
FERRAMENTA QUE LEVA EM CONSIDERAÇÃO SINONIMOS -> WORDNET??
Classificação
- Funções para valores atomicos
*Lenshtein
*Soundex
*Achronimous
- Função Token, quebra as strings em partes antes de comparar...
*Jaccard
Bom, minhas anotações ficaram meio desconexas porque eram muitas informações e não dava tempo de prestar atenção e anotar tudo ao mesmo tempo, mas o assunto é interessante e pode ter várias aplicações como, antes de cadastrar uma pessoa, verificar se o nome já existe através da fonética e ai por diante, o problema é que isso pode diminuir muito a performance da aplicação, mas fica a dica e é uma área que ainda existem poucas pesquisas...
Link para material do V ERBD.
Até.
ERBD 2009: Funções de similaridade e suas aplicações
TERMINA O X FÓRUM DE INFORMÁTICA DA SETREM
Olá pessoal, o X FÓRUM DE INFORMÁTICA SETREM terminou e foi um sucesso, durante as três noites do evento tivemos o auditório cheio e as palestras foram todas excelentes, deixo aqui links para os materiais diponibilizados durante todo o evento.
Primeira noite
Palestra sobre Cloud Computing com Giani Maldaner da SISNEMA - Porto Alegre, já havia postado o link e resumo aqui, mas fica o link da apresentação novamente e este link com mais material sobre o assunto.
Segunda noite
Mesa redonda sobre os 10 anos de desenvolvimento tecnológico da região noroeste do estado do Rio Grande do Sul, participaram nesta noite as empresas Ricohpel, Migrate Company, Arte.Com, WNL, Automassul e Abase Sistemas e Soluções Ltda, durante a noite as empresas apresentaram um pouco da suas histórias, o perfil dos profissionais que eram contratados no início de suas empresas, o perfil dos profissionais que buscam hoje e qual deverá ser o perfil do profissional do futuro, assim que estiver disponível o link para download das apresentações das empresas coloco aqui, por enquanto só link para as fotos.
Palestra sobre "sofrimento profissional, qual é o seu?" com a psicóloga e professora Evandir Bueno Barasuol (profa Vanda). Nesta palestra foi abordado sobre o que leva as pessoas a sofrerem durante o trabalho... link para download da apresentação.
Última noite do fórum
A melhor noite na minha opinião, tivemos uma excelente palestra sobre negócios na internet, da Web 1.0 para Web 2.0 com Luciano Teixeira - CEO - SAN Internet Corporativa, foi explicado as características e necessidades das gerações, porque alguns negócios na internet dão certo e outros não, qual é o futuro, Web 3.0? Acredito que foi a melhor palestra do X FÓRUM, vou tentar pegar o video dessa palestra e disponibilizar aqui no blog em breve, até lá, aqui está o link para download do material, é meio pesado porque tem 4 videos, mas vale a pena.
Após esta palestra, outra, também muito boa. "Do Storage ao Thin Client - Conhecimento nas nuvens ao alcance de suas mãos" com Fernando Maia, Consultor de Sistemas Advanced Systems Group Dell Brasil, nesta palestra foram esxplicados vários conceitos sobre Blade, Storages, DAS, NAS, SAN e novos produtos da Dell que devem vir a se tornar um padrão de mercado com a computação nas nuvens, download da apresentação.
Após estas últimas palestras, o X FÓRUM DA INFORMÁTICA SETREM foi encerrado com ótimo coquetel e a entrega dos certificados, no dia 14 de agosto de 2009 teremos a segunda etapa do FÓRUM com painéis profissionais com as empresas de TI da região.
Adição,Subtração e Diferença de datas no DELPHI for .NET
Olá pessoal, tive que fazer hoje uma função para diminuir 6 meses de uma data e decidi compartilhar um exemplo disso e outras funções similares que podem ser bastantes úteis.
Abaixo exemplos de procedimentos feitos no DELPHI 2007 for ASP.NET (RAD STUDIO), para executá-los você pode adicionar um button ou no próprio page load chamar estes procedimentos.
procedure Tteste.DiminuirData;
var
data: tdate;
begin
data := convert.ToDateTime(TextBox1.text);
data := data - convert.ToInt32(TextBox3.text);
// a função ToDateTime converto o de TDate para DateTime
// a função ToShortDateString vai retirar as horas, minutos e segundos e exibir no formato brasileiro (dd/MM/yyyy)
TextBox2.text := Convert.ToDateTime(data.tostring).ToShortDateString;
end;
Para somar dias em uma data basta trocar o sinal (-) por (+) :D
Agora procedimento para exibir número de dias em um intervalo de datas.
procedure Tteste.Diferenca;
var
data1, data2: tdate;
dias:integer;
begin
data1 := convert.Todatetime(TextBox1.text);
data2 := convert.Todatetime(TextBox2.text);
dias := convert.ToInt32(data1) - convert.ToInt32(data2);
TextBox3.text := dias.tostring;
end;
No Delphi podemos fazer muitas outras coisas interessantes utilizando a biblioteca DateUtils, basta adicionar na Uses, mas isso fica pra outro artigo, valeu!
Download do exemplo
Da teoria a prática da tecnologia XML
Resumo da oficina sobre XML ministrada pela Profa. Jiani Cardoso (jiani@pucrs.br) durante o V ERBD, breve descrição do assunto e material para download.
A eXtensible Markup Language (XML) é uma meta linguagem de marcação criada pela W3C com o objetivo de trocar e/ou transportar dados de uma aplicação para outra, integrando sistemas de informação.
Por meio de uma estrutura para documentos utilizando tags, a XML oferece ao usuário a oportunidade de criar uma linguagem de marcação específica, de acordo com a sua necessidade.
Estou postando somente agora o material dessa oficina pois estou com pouco tempo livre, ainda tenho mais alguns materiais disponibilizados durante o evento (V ERBD) que pretendo organizar melhor antes de publicar aqui, mas, se você tiver interesse/curiosidade sobre XML este é um bom material.
Clique aqui para baixar todo material da oficina.
Teoria Geral da Administração - Behavior
Estudo do comportamento humano. Surgiu em decorrência da contraposição entre a Teoria Clássica e a Teoria das Relações humanas no sentido de sintetizar as duas.
Douglas McGregor efetuou estudos sobre a relação entre o sucesso da empresa e sua capacidade de prever e controlar o relacionamento humano e conseguiu visualizar duas teorias sobre o comportamento humano, chamando uma de teoria x e outra de teoria y.
Teoria x: o ser humano tem aversão natural ao trabalho. A maioria das pessoas precisa ser controlada. O homem é um ser carente e se esforça pra satisfazer uma hierarquia de necessidades. O ser humano não consegue assumir responsabilidades, é vagabundo, só trabalha se for à marra, um ser totalmente manipulado. O líder adota um estilo AUTOCRÁTICO.
Teoria y: o ser humano vê o esforço físico e mental no trabalho de maneira natural, a maioria das pessoas busca naturalmente se auto corrigir para alcançar objetivos. O compromisso com o objetivo depende da recompensa que se vai obter com o trabalho. O ser humano aceita responsabilidades e buscam se envolver no seu local de trabalho. O líder adota um estilo participativo (DEMOCRÁTICO).
A teoria x é a legítima teoria pra trabalhar com crianças enquanto na teoria y estaríamos conversando sobre adultos, onde você motiva os seus colegas/funcionários e eles buscam se organizar para trabalhar e atingir seus objetivos. Acredito que a melhor forma de fazer com que seus funcionários trabalhem melhor é cobrando os resultados e dando maior liberdade, por exemplo, se um programador prefere trabalhar a noite, porque não deixar que ele passe a noite inteira programando em casa ou no trabalho mesmo e permitir que falte uma manhã de trabalho, desde que entregue o sistema dentro do prazo está tudo bem, assim cada um pode se organizar para trabalhar.
Um dos principais fatores que determinam a vontade de trabalhar é a motivação, embora eu acredite que a cultura/valores também tenha bastante “efeito” na “vontade de trabalhar”, como por exemplo, comparando os gaúchos aos sertanejos, a maioria dos gaúchos são descendentes dos colonizadores europeus que vieram pra cá por conta própria com esperança de uma vida melhor, assim, seus descendentes herdaram a cultura de que é necessário trabalhar para conseguir uma vida melhor, já os habitantes do sertão, são na maioria descendentes de escravos trazidos para trabalhar nos grandes latifúndios, e por isso, preferem aproveitar a liberdade e descansar, pois para eles, trabalho é sinônimo de escravidão
HIERARQUIA DE NECESSIDADES – MASLOW
- Necessidades fisiológicas
- Necessidades de segurança
- Necessidades sociais
- Necessidades de auto-estima (ego)
- Necessidades de auto-realização.
FREDERIC HERZBECK
- Auto-realização
- Auto-estima
- Motivacionais
- Sociais
- Segurança
- Higiênicas
- Fisiológicas
Outros fatores que determinam se o ser humano vai trabalhar são os objetivos, necessidades, valores e comportamento, se a pessoa estiver passando fome ou algo do gênero que gere uma necessidade de ganhar dinheiro para trocar por comida ou algo parecido, terá que trabalhar e então estará motivada para o trabalho, pois assim estará suprindo suas necessidades. Mas se a pessoa não tiver bons valores definidos ou nenhum valor, pode ser que ela passe a vender drogas para ganhar dinheiro e suprir suas necessidades e/ou alcançar objetivos pessoais, como status, dinheiro, casa, carro e assim por diante.
Os líderes nas empresas fazem a diferença porque são motivados por natureza e encontram tempo quando outras pessoas se dizem muito ocupadas para assumir compromissos, não ficam olhando para o relógio, estão sempre disponíveis.
LÍDER AUTOCRÁTICO - Teoria x
- Determina sozinho os planos e métodos
- Disciplina imposta
- Emite ordens de maneira enérgica
- Atua como agente de recompensas e punições
- Orientado para tarefas.
LÍDER LAISSEZ-FAIRE
- Permite que os subordinados façam o que desejam.
- Não estabelece programas ou processos
- Não fixa diretrizes e normas.
- Ambiente de country-club
LÍDER DEMOCRÁTICO - Teoria y
- Trabalha ouvindo e dialogando com o pessoal
- Disciplina compreendida e consentida
- Distribui responsabilidades
- Coordena a tomada de decisão
- Orientado para as pessoas
Bom pessoal, aqui foi o resumo da minha aula de TGA de hoje, semana que vem tem mais, como material auxiliar a leitura deste escrito sobre behavior, recomendo a visualização do video abaixo de Waldez Ludwig sobre o mercado de trabalho, é realmente muito bom.