Página de Pesquisa de Lucelene Lopes

Corpora Disponíveis

Corpus Número de textos Número de sentenças Número de tokens Texto puro Texto anotado
Pediatria(1) 281 27.724 835.412
Geologia 234 69.461 2.020.527
Modelagem Estocástica 88 44.222 1.173.401
Mineração de Dados 53 42.932 1.127.816
Processamento Paralelo 62 40.928 1.086.771
Diário Gaúcho 80 2.099 38.284
Corpus de Linguística Geral 25 3.486 64.794
Pneumopatias Ocupacionais 94 10.003 258.397
Teses e Dissertações PPGCC (1996-2013) 370 316.769 7.827.098
Corpus Número de textos Número de sentenças Número de tokens Texto puro Texto anotado
Os textos puros estão codificados em isolatin-1. Os textos anotados estão em formato tiger xml gerado pelo parser PALAVRAS (codificado em isolatin-1).

Para referenciar estes corpora utilize a seguinte referência:
LOPES, L. ; VIEIRA, R. . Building Domain Specific Parsed Corpora in Portuguese Language. In: ENIAC 2013 X National Meeting on Artificial and Computational Intelligence, 2013, Fortaleza. Proceedings of ENIAC 2013, 2013. p. 1-12.

(1) O Corpus de Pediatria possui uma lista de referência dos bigramas e trigramas mais relevantes. Estas listas foram produzidas pelo grupo TEXTCC da Professora Maria José Finatto da UFRGS. Versões lemmatizadas destas listas podem ser obtidas aqui: bigramas e trigramas.