Tamanho da fonte:
“ANONIZE.ME”: ANONIMIZADOR DE DADOS PARA PESQUISAS INTERDISCIPLINARES
Última alteração: 2024-09-11
Resumo
Modelos de linguagem atuais necessitam de um grande montante de dados para seu treinamento. A qualidade de tais dados reflete, diretamente, nos resultados obtidos das interações com o modelo. Assim, a utilização de conversas reais tende a produzir resultados mais fiéis ao tipo de comunicação que se pretende modular. Entretanto, interações reais estão permeadas por informações pessoais e sensíveis que devem ser mantidas privadas de modo a não expor os(as) participantes. Essa é uma necessidade tanto ética quanto legal, como enfatizada pela Lei Geral de Proteção de Dados (LGPD). Usualmente, pesquisas em áreas outras que não as tecnológicas, como em Linguística e Humanidades, anonimizam textos manualmente, comprometendo tempo de pesquisa e colocando em possível risco o sigilo dos dados. Este trabalho tem como objetivo o desenvolvimento de uma ferramenta computacional que automatiza esse processo. Dessa forma, visa-se a redução do tempo necessário nessa etapa de pesquisa bem como a eliminação da interação humana com informações privadas. Um software em Python que se integra com Modelos de Linguagem de Larga Escala foi, então, desenvolvido para a realização da tarefa de anonimização. A interface gráfica foi desenvolvida em TkInter e utilizou-se de engenharia de prompt para informar aos modelos quais dados anonimizar.
O sistema desenvolvido foi aplicado a um conjunto de interações escritas via WhatsApp, obtidas do Registro Escolar e da Coordenação do Curso Técnico em Mecânica do CEFET-MG Campus Araxá. Os resultados são promissores, pois o programa foi capaz de realizar a retirada da maioria dos dados sensíveis. Na massa de dados utilizada para teste, apenas um único número, escrito por extenso, não foi anonimizado. Em suma, “Anonize.me” mostra-se capaz de realizar a anonimização automática dos dados, mas ainda há pontos de melhora que seguem sendo analisados pela equipe de pesquisa.
O sistema desenvolvido foi aplicado a um conjunto de interações escritas via WhatsApp, obtidas do Registro Escolar e da Coordenação do Curso Técnico em Mecânica do CEFET-MG Campus Araxá. Os resultados são promissores, pois o programa foi capaz de realizar a retirada da maioria dos dados sensíveis. Na massa de dados utilizada para teste, apenas um único número, escrito por extenso, não foi anonimizado. Em suma, “Anonize.me” mostra-se capaz de realizar a anonimização automática dos dados, mas ainda há pontos de melhora que seguem sendo analisados pela equipe de pesquisa.
Palavras-chave
Software. Privacidade. Modelos de Linguagem de Larga Escala.
É necessário inscrever-se na conferência para visualizar os documentos.