Portal de Administração de Conferências - CEFET-MG, 14ª Semana de Ciência & Tecnologia 2018 - CEFET-MG

Tamanho da fonte: 
WEBFEATURES: ANÁLISE DE UMA FERRAMENTA PARA EXTRAÇÃO DE CARACTERISTICAS DO CONTEÚDO TEXTUAL (PART I)
Daniel Hasan Dalip, Poliana Oliveira, Beatriz Souza da Silva, Priscilla Raiane Carmo

Última alteração: 2018-09-18

Resumo


Este projeto apresenta a ferramenta WebFeatures (http://www.webfeatures.com.br), que tem como objetivo extrair, gerenciar e compartilhar um conjunto de métricas textuais. Tais métricas podem ser divididas em: estruturais, de estilo e legibilidade. Número de seções, imagens e parágrafos são exemplos de métricas estruturais. Tais métricas são importantes para inferir a organização de um documento. Métricas de estilo tentam capturar a forma de escrita do usuário por meio da análise de palavras, frases e classes gramaticais usadas, como número de preposições e tamanho de frases. Já as métricas de legibilidade visam inferir a compreensibilidade do texto. O sistema web proposto recebe como entrada um conjunto de documentos para análise por meio de um arquivo compactado e uma lista pré-definida pelo usuário de quais métricas serão processadas. Um banco de dados é responsável pelo armazenamento dos dados recolhidos e da resposta do processamento do sistema. Um escalonador assíncrono foi construído para selecionar o envio mais antigo ainda não processado para extração dos indicadores textuais. O sistema foi implementado em python usando o framework Django Web Framework e banco de dados MySQL. Uma demonstração da ferramenta está disponível em https://youtu.be/M70rCScft_Q. Para avaliar o WebFeatures, foram realizados testes com 3.294 documentos obtidos da plataforma Wikipedia. Os resultados mostraram que o tempo de resposta para extração dos indicadores ficou entre 535 e 3.296 segundos

Palavras-chave


Processamento de Linguagem Natural. Caracteristicas do texto. Qualidade de Informação.