PropBank.Br

O corpus Propbank.Br foi um dos produtos do projeto de pós-doutorado de Magali Sanches Duran, sob orientação da professora doutora Sandra Maria Aluísio. O projeto (com duração de 2 anos) foi realizado no Núcleo Interinstitucional de Linguística Computacional (NILC), Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP). Trabalho financiado pela FAPESP (Fundação de Amparo à Pesquisa do Estado de São Paulo) - processo: 2009/07394-9.

PropBank.BR: ANOTAÇÃO DE PAPÉIS SEMÂNTICOS EM UM CORPUS DO PORTUGUÊS DO BRASIL

Resumo:

O projeto PropBank.Br teve por objetivo construir uma camada de anotação de papéis semânticos em um corpus do português do Brasil. A finalidade dessa anotação é que o corpus seja utilizado como corpus de treinamento, visando à automação da tarefa de anotação de papéis semânticos. A fim de aproveitar a metodologia já disponível em língua inglesa para a tarefa, escolheu-se seguir as diretrizes do projeto PropBank (Palmer et al. 2005). A anotação de papéis semânticos foi feita sobre as árvores sintáticas geradas pelo parser Palavras (Bick, 2000) na porção brasileira do corpus Bosque, um subcorpus manualmente revisado da Floresta Sinta(c)tica (Afonso et al, 2002). As decisões de anotação tomaram por base o guia de anotação do PropBank, desenvolvido por Olga Babko-Malaya[i] e a consulta ao repositório de verbos do inglês (Verb Index[ii]), no qual se observou a estrutura argumental dos verbos equivalentes aos verbos anotados no português. Peculiaridades da língua portuguesa exigiram muitas decisões complementares (Duran e Aluísio,2011).

 

Referências:

Afonso S. ; Bick, E. ; Haber, E. ; Santos, D. (2002) Floresta sintá(c)tica: a treebank for Portuguese. In: Proceedings of LREC-2002.

Bick, E. (2000). The Parsing System Palavras Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Aarhus, Denmark, Aarhus University Press.

Duran, M. S.; Aluísio, S. M. Propbank-Br: a Brazilian Portuguese corpus annotated with semantic role labels. In the Proceedings of the 8th Symposium in Information and Human Language Technology, October 24-26, Cuiabá/MT, Brazil.

Palmer, M.; Gildea, D.; Kingsbury, P. (2005) The Proposition Bank: An Annotated Corpus of Semantic Roles. Computational Linguistics, 31:1., pp. 71-105, March, 2005.


Publicações:

Duran, M. S.; Aluísio, S. M. Propbank-Br: a Brazilian Portuguese corpus annotated with semantic role labels. In the Proceedings of the 8th Symposium in Information and Human Language Technology, October 24-26, Cuiabá/MT, Brazil.

Duran, M. S.; Aluísio, S. M. Propbank-Br: a Brazilian Treebank annotated with semantic role labels. In the Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012), Istanbul, Turkey.

Links úteis:

 

Contato: Dra. Magali Sanches Duran - email: magali.duran at uol.com.br