domingo, 2 de setembro de 2012

Tecnologia - Mineração de Dados na prática

Como hoje é domingo, estava conversando comigo (na verdade somos alguns) e tivemos uma ideia, pegar um conjunto de artigos sobre um determinado assunto e conhecer quais são as palavras que são mais comuns. Ou seja, gerar uma Nuvem de Palavras. O assunto escolhido foi Big Data e obtive 25 dos mais variados artigos, entre eles destaco os da ComputerWorld e de Cezar Taurion (Evangelista da IBM).

Uma vez de posse de todos os artigos, foram colocados em um arquivo TEXTO simples. o próximo passo foi corrigir o plural de algumas palavras, como por exemplo: Negócios para Negócio, Bancos para Banco, Empresas para Empresa, e assim sucessivamente para que corrigisse o resultado final. Agora vamos a  escolha do gerador da Nuvem de Palavras (se você observar a Web está cheia deles), escolhi o TagCrowd pela praticidade e facilidade de geração e por mais dois simples e importantes fatores:
  1. Aceitar fazer o Upload de um arquivo TXT como fonte de dados.
  2. Desprezar automaticamente determinadas palavras do texto, tais como: ainda, cada, com, como, da, de, dos, em, es, esse, forma, mais, mas, muito, na, nos, os, ou, para, pelo, pode, por, que, se, ser, seus, sobre, um, uma, ao, apenas, dia, diz, ele, essa, exemplo, fazer, isso, mesmo, muitas, pela, podem, tem, ter, todos, veis, vez, estão, será, uso, of, the. Que não teriam sentido no resultado que estava buscando.
Agora foi somente gerar e visualizar o resultado:


Essas palavras dizem muita coisa sobre essa nova tecnologia Big Data e é uma forma extraordinária de podermos pensar sobre o assunto. Está escrevendo uma tese ou um trabalho, faça o teste e use a Mineração de Dados a seu favor.

Obrigado e até a próxima
Fernando Anselmo

0 comentários:

Postar um comentário