Hybrid Semantic Annotation: Rule-based and Manual Annotation of the Open American National Corpus with Top-Level Ontology

Abstract
O processamento de linguagem natural ainda enfrenta o desafio de fazer com que as máquinas compreendam o significado contido nas palavras que ocorrem em uma frase. A anotação semântica ajuda nesse processo adicionando metadados que atribuem significado aos lexemas. Existem diversos aspectos semânticos que podem ser anotados, tais como função, papel semântico e categorias ontológicas. As categorias ontológicas de nível superior adicionam informações sobre a natureza do conceito denotado pelo lexema e permitem eliminar ambiguidades. A proposta de trabalho é uma abordagem híbrida de anotação semântica baseada em ontologias de nível topo aplicadas a um corpus em inglês americano. A pesquisa é dividida em duas etapas de anotação, ambas usando as categorias de alto nível topo do Schema.org como rótulos de anotação. Na primeira etapa é criado um anotador baseado em regras, e na segunda etapa é feita uma anotação manual para correção e adição de rótulos no corpus anotado na etapa anterior. A contribuição deste trabalho é a geração de um corpus anotado que pode ser usado no treinamento de anotadores automáticos.