quinta-feira, 27 de julho de 2017

MINERAÇÃO DE TEXTO - Deyvid, Geovane, Ivanilson, Lucas, Rodrigo Ramos, Samuel

MINERAÇÃO DE TEXTO

            Mineração de texto é um processo que utiliza algoritmos capazes de analisar coleções de documentos texto - tais como arquivos PDF, páginas Web, documentos XML e textos  VARCHAR de tabelas relacionais - com o objetivo de extrair conhecimentos necessários e valiosos.

Nos últimos anos a mineração de texto tem atraído o interesse não apenas dos pesquisadores em Ciência da Computação ou Sistemas de Informação, mas também das empresas, que procuram extrair conhecimento a partir de texto livre ou semiestruturado com o objetivo de conquistar um melhor posicionamento no mercado. Aqui se apresenta um panorama geral da área de mineração de texto para alunos e profissionais de informática que desejem estudar, trabalhar ou simplesmente conhecer um pouco mais sobre o assunto.

As tarefas de mineração de texto podem ser entendidas como as diferentes categorias de problemas que podem ser resolvidos através de processos de mineração de texto. Esta seção introduz as mais importantes através de uma abordagem simples e prática: apresentando não apenas as tarefas propriamente ditas, mas também uma série de exemplos de aplicações reais que podem ser solucionadas com o uso das mesmas. Existem dois formatos para isso:

Texto Livre: trata-se de texto escrito em alguma linguagem natural - como Português, Inglês, Italiano, etc. – que contém pouca ou nenhuma marca de estruturação. Alguns exemplos: artigos de revista, capítulos de livro, texto do corpo de um e-mail, arquivos PDF, entre outros. Nesta categoria também podem ser incluídos os campos descritivos de tabelas de bancos de dados relacionais, como CLOB, Memo e VARCHAR, já que eles são criados com o intuito de armazenar texto livre. Em muitos sistemas reais os textos armazenados nestes campos são consideravelmente longos e complexos (ex: um campo CLOB utilizado para armazenar a descrição de um atendimento em um sistema de help desk).
Texto Semiestruturado: documentos que, mesmo sem possuir um esquema rígido para validar seus dados, contêm alguma estrutura. Os dois principais exemplos são os documentos XML, onde as informações encontram-se demarcadas entre tags, e os arquivos JSON, que são compostos por pares atributo/valor.

Técnicas utilizadas
            As principais técnicas utilizadas para fazer a mineração de textos são:
- Processamento de Linguagem Natural: É um método que procura utilizar computadores para melhorar o entendimento da linguagem natural através de técnicas para processar textos rapidamente, utilizando-se de manipulação de strings até linguagem natural de inquéritos (MACHADO et al., 2010).
- Recuperação de Informação: Utiliza métodos e medidas estatísticos ou semânticos para automaticamente processar o texto de documentos para encontrar quais documentos possuem a resposta para a questão (mas não a resposta em si). Embora já fossem utilizadas técnicas deste tipo de forma primitiva em 1975, este método só ganhou notoriedade com a popularização da Internet(MACHADO et al., 2010).
- Extração de Informação: Possui como principal objetivo buscar partes relevantes de um texto em um documento e extrair informações específicas destas partes. Possui um conceito mais limitado da compreensão da linguagem natural(MACHADO et al., 2010).
- Estas técnicas são vastamente utilizadas na mineração de dados, principalmente em redes sociais e em processos de ensino a distância (MACHADO et al., 2010).

Nenhum comentário:

Postar um comentário

Fuzzy - Mariana e Jean

Ao passo que as tecnologias da informação se desenvolve o estudo relacionado se torna cada vez mais não-linear e complicado, onde a linguís...