Tamanho da fonte:
USO DE REDES NEURAIS RECORRENTES PARA ESTIMATIVA DE QUALIDADE DE CONTEÚDO DE ENCICLOPÉDIAS COLABORATIVAS
Última alteração: 2021-09-28
Resumo
https://youtu.be/jlNddFLEbeQ
A Wikipédia, com mais de 50 bilhões de páginas, é uma das enciclopédias online gratuitas mais populares do mundo. Ela é baseada em conteúdo gerado pelo usuário, ou seja, qualquer pessoa com acesso à internet pode escrever e fazer alterações em seus artigos, tal característica faz com que a qualidade da informação das enciclopédias seja frequentemente criticada. Portanto, atribuir a classe correta de qualidade aos artigos da Wikipedia é crucial para melhorar a experiência de autores e leitores ao usar este grande repositório de informações. Neste sentido, existem duas maneiras de fazer a classificação de qualidade, a primeira, entre artigos estáveis e controversos - chamaremos essa de classificação binária. A segunda, que estaremos utilizando, entre seis categorias (FA, GA, B, C, Start e Stub), que, na prática, variam entre artigos ruins e artigos excelentes - chamaremos essa de classificação multiclasse. Neste trabalho, foi adaptado o modelo de base mais recente das classificações binárias para o cenário de classificação multiclasse. Desta forma, foi desenvolvido um modelo de redes neurais LSTM (Long short-term memory) multicamadas, um tipo de arquitetura de rede neural recorrente capaz de persistir informação em longos períodos de tempo. Este modelo desenvolvido será utilizado, em trabalhos futuros, para comparação com modelos de Cotraining - modelos de aprendizado semi-supervisionado que necessitam de menos dados rotulados.
A Wikipédia, com mais de 50 bilhões de páginas, é uma das enciclopédias online gratuitas mais populares do mundo. Ela é baseada em conteúdo gerado pelo usuário, ou seja, qualquer pessoa com acesso à internet pode escrever e fazer alterações em seus artigos, tal característica faz com que a qualidade da informação das enciclopédias seja frequentemente criticada. Portanto, atribuir a classe correta de qualidade aos artigos da Wikipedia é crucial para melhorar a experiência de autores e leitores ao usar este grande repositório de informações. Neste sentido, existem duas maneiras de fazer a classificação de qualidade, a primeira, entre artigos estáveis e controversos - chamaremos essa de classificação binária. A segunda, que estaremos utilizando, entre seis categorias (FA, GA, B, C, Start e Stub), que, na prática, variam entre artigos ruins e artigos excelentes - chamaremos essa de classificação multiclasse. Neste trabalho, foi adaptado o modelo de base mais recente das classificações binárias para o cenário de classificação multiclasse. Desta forma, foi desenvolvido um modelo de redes neurais LSTM (Long short-term memory) multicamadas, um tipo de arquitetura de rede neural recorrente capaz de persistir informação em longos períodos de tempo. Este modelo desenvolvido será utilizado, em trabalhos futuros, para comparação com modelos de Cotraining - modelos de aprendizado semi-supervisionado que necessitam de menos dados rotulados.
Palavras-chave
Qualidade. Aprendizado de Máquina. Wikipedia