CORPUS BRASILEIRO: UMA COLETÂNEA ON-LINE DE UM BILHÃO DE PALAVRAS DO PORTUGUÊS BRASILEIRO CONTEMPORÂNEO
Área
Linguística Aplicada.
Resumo
O presente projeto visa a construir e disponibilizar on-line o Corpus Brasileiro, que será composto por um bilhão
de palavras de português brasileiro contemporâneo, de vários tipos de linguagem, a ser disponibilizado gratuitamente em http://corpusbrasileiro.pucsp.br.
Palavras-chave
Linguística de corpus; língua portuguesa; informática; bancos de dados relacionais; aplicações para a web.
Objetivos
1. Construção de um corpus eletrônico de um bilhão de palavras de português brasileiro contemporâneo, de
diversos registros e gêneros, com material obtido na WWW. 2. Montagem do corpus em arquitetura de terceira
geração em SQL. 3. Disponibilização do corpus via WWW, com acesso gratuito, até junho de 2010.
Aplicações/produtos
Criação do maior corpus eletrônico da língua portuguesa do mundo; criação do maior corpus em banco de dados relacional do mundo; disponibilização gratuita desse corpus na web, pelo endereço http://corpusbrasileiro.pucsp.br
Fase em que se encontra o projeto
Compra de equipamentos; planejamento e montagem do banco de dados; criação das rotinas em PHP para acesso
ao corpus; coleta de dados; etiquetagem dos dados; apresentação de trabalhos em congressos nacionais e internacionais.
Pesquisador responsável
Antonio Berber Sardinha
Equipe
Antonio Berber Sardinha; José Lopes Moreira Filho; Eliane Alambert.
Financiamentos/apoios
FAPESP, 2008/00944-0.