Processamento Linguagem Natural com PHP

Palestra do Ivo Nascimento na Latinoware sobre processamento de linguagem natural no PHP, isto não existe, e seu projeto de criar algo semelhante com nltk.org (Python?), no github.com/iannsp/texta, o Text Analizer.

TF-IDF: Term Frequency - Inverse Document Frequency: calcula a importância de um termo em um texto.
 - Tokenizacão: no PHP seria um explode, guarda um array
 - Normalizacao: correcão portugues, maiúsculas e minúsculas, ...
 - Stop-words: e, de, mas, o, a .... tirar palavras que não interessam
 - Aprendizado: % das palavras positivas vs negativas

#Hashtags: semântica

N-GRAM: Conjuntos de termos, tokens. Bigram, Trigram, ...
  - Análise: Filtro Bayesiano, Coef. Dice, Qui-quadrado, Coeficiente de Jaccard, coef. Relacão Pearson, Distância Euclidiana...

Last.fm e Grooveshark usam algumas dessas fórmulas matemáticas como Pearson e Dist. Euclidiana para identificar as pessoas semelhantes e sugerir as músicas que elas gostaram uma para outra.

Problemas! Homógrafos, como: Quem casa quer casa... A mesma palavra com sentidos diferentes.

Ele sugeriu o PIP, Python em PHP caso queira usar PHP com o NLTK, também ficou de levantar os slides no slideshare.net/ivonascimento, vamos aguardar.

TDD - Desenvolvimento dirigido por testes

De volta da Latinoware, agora publicar anotações, começando pela palestra assertTrue($tdd); do Alexandre Gaigalas.

Segundo a Wikipedia: Test Driven Development (TDD) ou em português Desenvolvimento dirigido por testes é uma técnica de desenvolvimento de software que baseia em um ciclo curto de repetições: Primeiramente o desenvolvedor escreve um caso de teste automatizado que define uma melhoria desejada ou uma nova funcionalidade. Então, é produzido código que possa ser validado pelo teste para posteriormente o código ser refatorado para um código sob padrões aceitáveis. Kent Beck, considerado o criador ou o 'descobridor' da técnica, declarou em 2003 que TDD encoraja designs de código simples e inspira confiança[1]. Desenvolvimento dirigido por testes é relacionado a conceitos de programação de Extreme Programming, iniciado em 1999,[2] mas recentemente tem-se criado maior interesse pela mesma em função de seus próprios ideais.[3] Através de TDD, programadores podem aplicar o conceito de melhorar e depurar código legado desenvolvido a partir de técnicas antigas.[4]

Após esta breve definição, vamos as minhas anotações. Como você faz pra testar JS ou PHP? Toda vez abre o navegador, preenche trocentos campos validando CPF, data etc e clica em enviar pra ver está funcionando? Há muita perda de tempo nisso, é muito escroto, programador gosta de programar e não gosta de perder tempo fazendo testes, então, por que não criar um software para testar o software?

Método antigo de teste: var_dump($user);
Agora: // var_dump($user);  :D

Os métodos de teste evoluíram muito nos últimos anos, Breakpoints (usava muito isso no Delphi), Watchers, ... chegando ao TDD.

PHPUnit criado por Sebastian Bergman, uma boa ferramenta.

TDD (Test) + BDD (Behavior) + CI (Integração Contínua) = :D

O TDD foi feito para os desenvolvedores, para facilitar a vida deles e melhorar muito a qualidade do software.

Cuidar com Dependency Injection, não conecta ao banco real para testar.

Abaixo os slides da palestra, veja os gráficos dos tempos sem TDD e com TDD, formas de convencer seu chefe a mudar, etc. Confira também o texto do próprio autor em http://php5.net.br/tdd

Modelo Resumo SAPS e Práticas SI e TRC

Segue abaixo modelo de Resumo exigido para o maior evento Científico da SETREM, o SAPS. Este modelo acabou de ser enviado pela coordenadora de SI (Sistemas de Informação) e TRC (Tecnologia em Redes de Computadores) para todos acadêmicos e professores dos cursos pois para o ano 2012, este será o modelo nos resumos das Práticas Profissionais, deste este semestre.
 
Este é um modelo de resumo a ser utilizado para os trabalhos da Mostra Estadual de Pesquisa e do Salão de Iniciação Científica.  Para o corpo deste documento, use fonte Arial 12 pontos, letras maiúsculas e minúsculas, espaçamento entre linhas simples e o texto deve ser justificado (apenas para melhor visualização antes da inscrição). O resumo deve conter no máximo 3.000 e no mínimo de 800 caracteres, podendo ser digitado diretamente no sistema de inscrição na internet (ou seja, esse modelo é só um rascunho de trabalho antes de fazer a inscrição) ou utilizado o recurso de editar copiar/colar de um aplicativo de texto previamente utilizado. Na parte superior do sistema de inscrição existe um campo automático que ilustra a quantidade de caracteres que ainda faltam para concluir o limite determinado. No corpo do resumo não deve haver nenhuma indicação de autoria, formação e o título. Estes dados devem ser preenchidos corretamente no sistema de inscrição, sendo esta informação considerada como oficial na divulgação dos dados de autoria e formação. A comissão organizadora do evento não é responsável por nomes de autores e orientadores digitados erroneamente ou incompletos. Caso seja necessária nova impressão ou correção de documentos por erros desta natureza será cobrado dos autores o valor correspondente a uma inscrição extra. O resumo deve procurar relatar o tema da pesquisa, os objetivos, o problema, os principais referenciais e conceitos utilizados, a metodologia, os resultados parciais ou finais da pesquisa, recomendações e a conclusão, evidenciando as contribuições que este estudo proporcionou para o crescimento do seu conhecimento ou da ciência.

Palavras chaves: resumo, formatação, orientador.

Referenciais

GÜLLICH, Roque Ismael da Costa; LOVATO, Adalberto; EVANGELISTA, Mário dos Santos. Metodologia da pesquisa - normas para apresentação de trabalhos: redação, formatação e editoração.  2 Ed. Três de Maio: SETREM, 2007.

Licenças de Produtos Gratuitas

Recebi por e-mail da Microsoft e achei importante compartilhar.....

Olá,

Você sabia que cerca de 95% das nossas licenças na área técnica são gratuitas?

Para os profissionais de desenvolvimento, temos as versões Express dos produtos: Visual Studio, SQL Server, e Visual Studio LightSwitch.

E ainda para estudantes, Web Developers ou empreendedores de Startups, a Microsoft disponibiliza não só licenças gratuitas como também programas com benefícios específicos para atender às suas necessidades.

DreamSpark WebSite Spark BizSpark Express - Grátis
Público
Estudantes
 

Web developers e Web designers
 

Empreendedores (com foco nos desenvolvedores de soluções Software as a Service (SaaS).
 

Qualquer publico.
 
Produtos Disponíveis para Download
• Visual Studio,
• SQL Server 2008,
• Windows Server 2008 R2,
• Expression,
• XNA Game Studio,
• Robotics Developer Studio 2008 R2,
• Virtual PC e muitos outros

 

• Visual Studio Professional, • Expression (Studio e Web), • SQL Server 2008 Web Edition e Web Server R2, • Windows Web Server 2008 R2
 

• Mais de 300 softwares em diferentes versões
 

• Visual Studio • SQL ServerV • Visual Studio LightSwitch
 
Pré-requisitos
Ser estudante de uma instituição cadastrada no programa, incluindo a ISIC (Carteira Mundial do Estudante), a Conta Universitária Bradesco entre outras ou pertencer a uma instituição que tenha Live@Edu.
 

Desenvolver soluções de desenvolvimento web e/ou design Company  (até 10 pessoas) ou Individual.
 

A empresa deve ter menos de 3 anos de vida, ser da iniciativa privada e ter receita anual menor que 1M USD.
 

Nenhum
 
Outros benefícios
do programa

Disponibiliza uma série de treinamentos em português e inglês, para complementar a sua formação.
 

Participação no programa por até 3 anos,
 

Visibilidade, Networking e Suporte.
 

Download da versão do produto gratuito, sem data de expiração
 
Link para o
programa

DreamSpark
 
WebSite Spark
BizSpark
 

Visual Studio
SQL Server

 

Confira na próxima edição informações sobre nosso Programa de Avaliação de Softwares.

Atenciosamente,
Equipe Audiência Técnica - Microsoft