Tamanho da fonte:
POSTAG: CRIAÇÃO DE UM SISTEMA PARA ROTULAÇÃO MANUAL DE ENTIDADES NO TEXTO
Última alteração: 2021-10-08
Resumo
https://youtu.be/lZ_QLY7g67c
A participação do público na Internet vivência expoente crescimento nos últimos anos, tanto com dados, apresentação de ideias e modalidades de linguagem, logo, é necessário que o tratamento de texto seja cada vez mais automatizado, numa tentativa de identificar vícios de linguagens e figuras utilizadas constantemente. Exemplificando, o Twitter contabiliza cerca de 656 milhões de tweets por dia, dentre eles há diversas palavras chaves que podem sofrer com a ambiguidade, por exemplo, ao pesquisar por “Lula” você pode estar querendo se informar sobre a política brasileira, mas pode também estar interessado em uma curiosidade nova sobre o animal, portanto, o reconhecimento e tratamento de texto automático pode potencializar a distinção de organizações e compreender o contexto em que são aplicadas. Para minimizar esse problema pode se introduzir o uso de técnicas de aprendizado de máquinas, porém as mesmas são efetivas a partir de dados já rotulados, deste modo, foi desenvolvido o projeto POSTag um sistema, em formato de ferramenta, que permite a manipulação manual de entidades em texto, sendo a entidade “qualquer elemento do mundo que possui sua existência independente de qualquer outro elemento” (R. Grishman & Sundheim, 1996). Assim a iniciativa foi elaborada como uma ferramenta web, de interface baseada na gestão e experiência do usuário, com o intuito de aprimorar a geração de dados para o treinamento de reconhecimento de entidades em textos. No desenvolvimento foi utilizada a framework Django e técnicas de inteligência artificial, onde o usuário parte de uma rotulação manual – de tags previamente indicados – até a base de treinamento estar suficiente e colaborar com grande massa de dados que cresce exponencialmente. Os planos se baseiam na publicação da ferramenta como software livre, visto que contém features diversas e testes feitos.
A participação do público na Internet vivência expoente crescimento nos últimos anos, tanto com dados, apresentação de ideias e modalidades de linguagem, logo, é necessário que o tratamento de texto seja cada vez mais automatizado, numa tentativa de identificar vícios de linguagens e figuras utilizadas constantemente. Exemplificando, o Twitter contabiliza cerca de 656 milhões de tweets por dia, dentre eles há diversas palavras chaves que podem sofrer com a ambiguidade, por exemplo, ao pesquisar por “Lula” você pode estar querendo se informar sobre a política brasileira, mas pode também estar interessado em uma curiosidade nova sobre o animal, portanto, o reconhecimento e tratamento de texto automático pode potencializar a distinção de organizações e compreender o contexto em que são aplicadas. Para minimizar esse problema pode se introduzir o uso de técnicas de aprendizado de máquinas, porém as mesmas são efetivas a partir de dados já rotulados, deste modo, foi desenvolvido o projeto POSTag um sistema, em formato de ferramenta, que permite a manipulação manual de entidades em texto, sendo a entidade “qualquer elemento do mundo que possui sua existência independente de qualquer outro elemento” (R. Grishman & Sundheim, 1996). Assim a iniciativa foi elaborada como uma ferramenta web, de interface baseada na gestão e experiência do usuário, com o intuito de aprimorar a geração de dados para o treinamento de reconhecimento de entidades em textos. No desenvolvimento foi utilizada a framework Django e técnicas de inteligência artificial, onde o usuário parte de uma rotulação manual – de tags previamente indicados – até a base de treinamento estar suficiente e colaborar com grande massa de dados que cresce exponencialmente. Os planos se baseiam na publicação da ferramenta como software livre, visto que contém features diversas e testes feitos.
Palavras-chave
Processamento de Linguagem Natural. Reconhecimento de Entidades. Aprendizado de Máquina.