MINERAÇÃO DE TEXTO
Mineração de texto é um processo que utiliza algoritmos
capazes de analisar coleções de documentos texto - tais como arquivos PDF,
páginas Web, documentos XML e textos VARCHAR de tabelas relacionais - com
o objetivo de extrair conhecimentos necessários e valiosos.
Nos últimos anos a mineração de texto tem atraído o
interesse não apenas dos pesquisadores em Ciência da Computação ou Sistemas de
Informação, mas também das empresas, que procuram extrair conhecimento a partir
de texto livre ou semiestruturado com o objetivo de conquistar um melhor
posicionamento no mercado. Aqui se apresenta um panorama geral da área de
mineração de texto para alunos e profissionais de informática que desejem
estudar, trabalhar ou simplesmente conhecer um pouco mais sobre o assunto.
As tarefas de mineração de texto podem ser entendidas
como as diferentes categorias
de problemas que podem ser resolvidos através de processos de
mineração de texto. Esta seção introduz as mais importantes através de uma
abordagem simples e prática: apresentando não apenas as tarefas propriamente
ditas, mas também uma série de exemplos de aplicações reais que podem ser
solucionadas com o uso das mesmas. Existem dois formatos para isso:
- Texto
Livre: trata-se de texto escrito em alguma linguagem natural - como
Português, Inglês, Italiano, etc. – que contém pouca ou nenhuma marca de
estruturação. Alguns exemplos: artigos de revista, capítulos de livro, texto do
corpo de um e-mail, arquivos PDF, entre outros. Nesta categoria também podem ser
incluídos os campos descritivos de tabelas de bancos de dados relacionais, como
CLOB, Memo e VARCHAR, já que eles são criados com o intuito de armazenar texto
livre. Em muitos sistemas reais os textos armazenados nestes campos são
consideravelmente longos e complexos (ex: um campo CLOB utilizado para
armazenar a descrição de um atendimento em um sistema de help desk).
- Texto
Semiestruturado: documentos que, mesmo sem possuir um esquema rígido
para validar seus dados, contêm alguma estrutura. Os dois principais exemplos
são os documentos XML, onde as informações encontram-se demarcadas entre tags, e os arquivos
JSON, que são compostos por pares atributo/valor.
Técnicas utilizadas
As principais técnicas utilizadas para fazer a mineração de textos são:
- Processamento de Linguagem Natural: É um método que procura utilizar computadores para melhorar o entendimento da linguagem natural através de técnicas para processar textos rapidamente, utilizando-se de manipulação de strings até linguagem natural de inquéritos (MACHADO et al., 2010).
- Recuperação de Informação: Utiliza métodos e medidas estatísticos ou semânticos para automaticamente processar o texto de documentos para encontrar quais documentos possuem a resposta para a questão (mas não a resposta em si). Embora já fossem utilizadas técnicas deste tipo de forma primitiva em 1975, este método só ganhou notoriedade com a popularização da Internet(MACHADO et al., 2010).
- Extração de Informação: Possui como principal objetivo buscar partes relevantes de um texto em um documento e extrair informações específicas destas partes. Possui um conceito mais limitado da compreensão da linguagem natural(MACHADO et al., 2010).
- Estas técnicas são vastamente utilizadas na mineração de dados, principalmente em redes sociais e em processos de ensino a distância (MACHADO et al., 2010).
As principais técnicas utilizadas para fazer a mineração de textos são:
- Processamento de Linguagem Natural: É um método que procura utilizar computadores para melhorar o entendimento da linguagem natural através de técnicas para processar textos rapidamente, utilizando-se de manipulação de strings até linguagem natural de inquéritos (MACHADO et al., 2010).
- Recuperação de Informação: Utiliza métodos e medidas estatísticos ou semânticos para automaticamente processar o texto de documentos para encontrar quais documentos possuem a resposta para a questão (mas não a resposta em si). Embora já fossem utilizadas técnicas deste tipo de forma primitiva em 1975, este método só ganhou notoriedade com a popularização da Internet(MACHADO et al., 2010).
- Extração de Informação: Possui como principal objetivo buscar partes relevantes de um texto em um documento e extrair informações específicas destas partes. Possui um conceito mais limitado da compreensão da linguagem natural(MACHADO et al., 2010).
- Estas técnicas são vastamente utilizadas na mineração de dados, principalmente em redes sociais e em processos de ensino a distância (MACHADO et al., 2010).
Nenhum comentário:
Postar um comentário