Pesquisas PUC-SP

CORPUS BRASILEIRO: UMA COLETÂNEA ON-LINE DE UM BILHÃO DE PALAVRAS DO PORTUGUÊS BRASILEIRO CONTEMPORÂNEO

Área
Linguística Aplicada.

Resumo
O presente projeto visa a construir e disponibilizar on-line o Corpus Brasileiro, que será composto por um bilhão de palavras de português brasileiro contemporâneo, de vários tipos de linguagem, a ser disponibilizado gratuitamente em http://corpusbrasileiro.pucsp.br.

Palavras-chave
Linguística de corpus; língua portuguesa; informática; bancos de dados relacionais; aplicações para a web.

Objetivos
1. Construção de um corpus eletrônico de um bilhão de palavras de português brasileiro contemporâneo, de diversos registros e gêneros, com material obtido na WWW. 2. Montagem do corpus em arquitetura de terceira geração em SQL. 3. Disponibilização do corpus via WWW, com acesso gratuito, até junho de 2010.

Aplicações/produtos
Criação do maior corpus eletrônico da língua portuguesa do mundo; criação do maior corpus em banco de dados relacional do mundo; disponibilização gratuita desse corpus na web, pelo endereço http://corpusbrasileiro.pucsp.br

Fase em que se encontra o projeto
Compra de equipamentos; planejamento e montagem do banco de dados; criação das rotinas em PHP para acesso ao corpus; coleta de dados; etiquetagem dos dados; apresentação de trabalhos em congressos nacionais e internacionais.

Pesquisador responsável
Antonio Berber Sardinha

Equipe
Antonio Berber Sardinha; José Lopes Moreira Filho; Eliane Alambert.

Financiamentos/apoios
FAPESP, 2008/00944-0.