ProCaCoSa

PROJETO CONCLUÍDO

Projeto ProCaCoSa

Objetivos

Esse projeto visa analisar e diagnosticar alguns problemas causados à Sumarização Automática (SA) pela ocorrência de cadeias de co-referência (CCRs) não resolvidas durante a seleção e estruturação do conteúdo de sumários. A modelagem de aspectos específicos do português para o processamento automático do discurso e nas propostas de resolução anafórica terá como foco a aplicação particular de SA. De um modo geral, o objetivo é o uso de informação de co-referência para enriquecer os sumários gerados automaticamente. Esse objetivo implicará o uso e desenvolvimento de ferramentas específicas de autoria do grupo proponente além de ferramentas usadas para construção de corpus anotado, como por exemplo, o analisador sintático PALAVRAS e o sistema de anotação manual de correferência MMAX. O caráter inovador deste projeto está relacionado às iniciativas de processamento do discurso, baseado em modelagem discursiva que associe a resolução anafórica à SA.

Equipe

Coordenação geral:
Lucia Helena Machado Rino

Equipe:
Renata Vieira
Thiago Alexandre Salgueiro Pardo
Ariadne M.B.R. de Carvalho
Eloize Rossi Marques Seno
Sandra Collovini de Abreu
Thiago Ianez Carbonel
Amanda Rocha Chaves
Jorge César Barbosa Coelho
Jorge Pelizzoni
Luana Knoff
Juliana Thiesen Fuchs
Élen Cátia Tomazela
Patricia Nunes Gonçalves

Downloads

Summ-it (versão 3.0): Corpus composto de 50 textos jornalísticos retirados da Folha de São Paulo de gênero de divulgação científica. O pacote contém textos originais, arquivos XML com anotação morfossintática (PALAVRAS), arquivos com anotação manual de correferência (MMAX), arquivos XML com anotação RST (RSTTool), sumários automáticos, sumários manuais, textos tarjados (em destaque informações relevantes do texto).(Download)

Guidelines usados para anotação do corpus. (Download)

Conversor XML Tiger à XCES: Sistema desenvolvido em Java para conversão de arquivos Tiger-XML para o padrão XCES.(Download)

Publicações resultantes

Gonçalves, Patricia Nunes. CorrefSum: Revisão de Coesão Referencial em Sumários Extrativos. Dissertação de Mestrado em Computação Aplicada. Unisinos – São Leopoldo, Fevereiro 2008.

Souza, José Guilherme C. Resolução automática de correferência aplicada à língua portuguesa. Trabalho de conclusão do Curso de Ciência da Computação. Unisinos – São Leopoldo, Novembro 2007.

COLLOVINI, S. et al. Summit: Um corpus anotado com informações discursivas visando à sumarização automática. In: 5º Workshop em Tecnologia da Informação e da Linguagem Humana (TIL’2007) – Rio de Janeiro, RJ: Proceedings of the SBC, 2007.

Colaboração com outras instituições

UFSCar
NILC da USP/São Carlos
UNICAMP
PUCRS