Criação e Caracterização de um Corpus de Discurso Sexistas em Português

Abstract
O sexismo é um tópico cujo interesse social tem crescido a medida que a figura feminina vence as barreiras da desigualdade de gênero. O discurso sexista propaga e incentiva o comportamento depreciativo e abusivo contra mulheres. Uma caracterização e identificação precisa são peças-chave para tratar e mitigar a violência. Neste trabalho, apresentamos um corpus de discurso sexista em Português coletado a partir de portais de notícias de grande aceitação popular. O trabalho apresenta três contribuições principais: (1) o processo de criação do corpus e de rotulação de comentários (sexista/não sexista); (2) a caracterização e análise do corpus e do comportamento dos rotuladores anônimos; (3) uma avaliação inicial de técnicas de aprendizagem de máquina para classificação de comentários sexistas/não sexistas. Os resultados preliminares mostram que, ao utilizar support vector machine, é possível identificar comentários sexistas com uma medida F1 acima de 0,8, precisão acima de 0,9 e revocação próxima a 0,8.