Petiano: Fernando Chiu Hsieh (lattes)
Orientador: Prof. Dr. Ivandré Paraboni (lattes)
A caracterização autoral (CA) é o problema computacional de identificar características de seu autor, como gênero, idade etc., a partir de um documento textual fornecido como entrada. CA é uma recente e ativa linha de pesquisa em Processamento de Língua Natural, com aplicações na área forense (e.g., para identificar suspeitos de propagar conteúdos ilícitos, plágio etc.) e outras.
O presente projeto tem o objetivo de desenvolver modelos de CA a partir de documentos textuais utilizando métodos de aprendizagem de máquina baseados em representações distribuídas de palavras (ou “word embeddings”) e nos métodos preditivos CBOW e Skip gram. Espera-se que os modelos desenvolvidos sejam superiores ao uso de técnicas tradicionais de representação de texto (e.g., bag-of-words ou modelos de n-gramas), avançando assim o estado da arte da CA para o Português brasileiro.