Corref-PT

Descrição

O Corref-PT consiste em um corpus, anotado com correferências para o Português. O recurso foi construído por meio de um esforço coletivo entre sete times de anotadores, com um total de vinte e um anotadores falantes nativos do Português, variando entre estudantes e professores da área de linguística computacional.  O corpus está disponível em quatro formatos, TXT, SemEval, XML e HTML.

 

Download

O corpus é formado por 4  tipos de  arquivo: o primeiro, TXT, livre de anotações; o segundo, SemEval, contendo as informações anotadas de cada palavra dos textos, em forma de colunas, correspondendo as diferentes camadas: morfossintáticas,  e  correferência; o terceiro, HTML, fornece uma forma de visualização amigável, de forma a facilitar a identificação e leitura do texto; e, o quarto, XML, provê uma estrutura que facilita a extração de informação. O detalhamento do corpus é apresentado no artigo citado.

Modelo (template):

Citação

Citação em texto, bibtex e PDF do artigo

[Fonseca et al. ,2017] Fonseca, E.; Sesti, V.; Collovini, S.; Vieira, R.; Leal, A. L.; Quaresma, P. “Collective elaboration of a coreference annotated corpus for portuguese texts”. In: Proceedings of II workshop on Evaluation of Human Language Technologies for Iberian Languages, 1998, pp. 68–82 [pdf] [bib]