Portal de Administração de Conferências - CEFET-MG, 17ª SEMANA DE CIÊNCIA E TECNOLOGIA DO CEFET-MG - 2021

Tamanho da fonte: 
AVALIAÇÃO AUTOMÁTICA DA QUALIDADE DE ARTIGOS DA WIKIPÉDIA COM BASE EM SUA EVOLUÇÃO
Daniel Hasan, Sinval Deus Vieira Junior, Ana Luiza Sanches

Última alteração: 2021-09-30

Resumo


https://youtu.be/RmegwoaHxDk
O objetivo do trabalho é a elaboração de um modelo de aprendizado de máquina para predizer a qualidade de artigos da Wikipédia baseado em sua evolução ao longo do tempo. Dessa forma, a partir da constatação de que um artigo piorará de qualidade, os responsáveis podem ser alertados a fim de manter a qualidade do artigo. Além disso, a metodologia pode ser utilizada em outros contextos. Para a criação da base de dados, foi realizada a coleta de artigos e suas revisões com base em um trabalho anterior de TCC. Dessa forma, foram coletados milhares de artigos que foram previamente avaliados manualmente. Além disso, para cada artigo, foi coletado o histórico de revisões, dando o total de 1.700.431 revisões. Com base nessas revisões, foram extraídos os indicadores de qualidade que foram usados para a predição.Por meio deles foi criado um modelo de aprendizado de máquina LSTM. Para a criação do modelo, foram realizadas variações de parâmetros utilizando o otimizador Optuna a fim de encontrar o melhor modelo gerado. Além disso, foi utilizado a técnica de aprendizagem por reforço, de forma a penalizar o modelo por erros de transições de artigos das quais houveram uma mudança de classe. Essa abordagem foi utilizada para prevenir o overfitting do modelo, visto que a quantidade de transições com mudanças de classes possuem consideravelmente menos representantes que as transições com permanência de classe. Aplicando o modelo sem se preocupar com o desbalanceamento das classes, os resultados para casos com menos representantes obtiveram consideravelmente os piores MacroF1. Ao aplicar o aprendizado por reforço, o modelo é melhor na predição de casos mais raros (transição com mudança de classe, por exemplo) e de fato ocorre a diminuição do overfitting.

Palavras-chave


Qualidade. Aprendizado de Máquina, Wikipedia