Recursos

Projeto - Ontolp Lista de Termos

Um dos trabalhos desenvolvidos no contexto do projeto OntoLP foi a realização de experimentos de extração de termos compostos, candidatos a conceitos, a partir de um corpus da área da pediatria. Esse corpus é composto por 283 textos (785.448 palavras) em português extraídos do Jornal de Pediatria . O corpus foi organizado por Coulthard para estudar padrões de tradução português-inglês (COULTHARD, 2005).
No contexto do projeto TEXTQUIM/TEXTECC da Universidade Federal do Rio Grande do Sul, duas listas de termos compostos foram construída a partir desse corpus. As listas constituem um catálogo e um dicionário de termos. O propósito do dicionário (disponível em www.ufrgs.br/textecc) é dar apoio aos estudantes de tradução nesse domínio.
No contexto do projeto OntoLP, essas listas iniciais foram unidas e revisadas. O resultado final deste processo foi uma lista com 2151 termos compostos, sendo 1421 bi-gramas e 730 tri-gramas. Termos de composição maior que 3 palavras não foram incluídos. Essa lista revisada tem sido utilizada como lista de referência em experimentos de extração de termos.

Nome Descrição Língua Arquivo Tamanho Licença
OntoLP Lista de Termos Lista de bi-gramas e tri-gramas do corpus de pediatria Português(br) zip 15 KB *Creative Commons License


Equipe:

  • Lucelene Lopes (doutoranda)
  • Daniel Martins (graduando)
  • Renata Vieira (orientadora)
  • Maria José Finatto (colaboradora)

COULTHARD, R. James. The application of Corpus Methodology to Translation: the JPED parallel corpus and the Pediatrics comparable corpus. Dissertação de Mestrado, Programa de Pós Graduação em Estudos da Tradução, Universidade Federal de Santa Catarina, 2005.

*Ontolp Lista de Termos by Grupo PLN-BR is licensed under a Creative Commons Atribuição-Uso Não-Comercial-Compartilhamento pela mesma Licença 2.5 Brasil License