Léxico 語 · 13

Dicionários e corpora

De Bluteau e Morais Silva ao Vocabulário Ortográfico Comum e aos grandes corpora eletrónicos: como o léxico português é registado, normalizado e observado.

pt

Toda a língua escrita acaba por ser inventariada. O dicionário descreve o que as palavras significam; o vocabulário ortográfico fixa como se escrevem; o corpus mostra como são realmente usadas. Estes três instrumentos — a obra de consulta, a norma e o registo empírico — formam a infraestrutura sobre a qual assenta o conhecimento do léxico português.

Das listas bilingues ao primeiro dicionário monolingue

A lexicografia portuguesa nasceu, como em quase toda a Europa, ao serviço do latim. As primeiras obras eram bilingues, destinadas a quem aprendia a língua de cultura: o Dictionarium ex Lusitanico in Latinum sermonem de Jerónimo Cardoso (1562–1569) é habitualmente apontado como o primeiro a registar de forma sistemática o vocabulário português, ainda que como ponto de partida para o latim.

O salto decisivo deu-se no século XVIII com o Vocabulario Portuguez, e Latino de Rafael Bluteau (oito volumes, 1712–1728), uma enciclopédia lexical monumental. Sobre ele trabalhou António de Morais Silva, cujo Diccionario da Lingua Portugueza (1789) é considerado o primeiro dicionário monolingue moderno do português: define as palavras em português, organiza-se alfabeticamente e documenta os sentidos com autores. As suas sucessivas edições atravessaram o século XIX e fizeram-no a referência por excelência.

O dicionário monolingue contemporâneo

Hoje convivem várias grandes obras de referência. Em Portugal, a Academia das Ciências de Lisboa publicou em 2001 o seu Dicionário da Língua Portuguesa Contemporânea, e a tradição editorial mantém títulos de larga circulação, como o Grande Dicionário da Língua Portuguesa da Porto Editora. O suporte digital tornou-se central: dicionários como o Priberam e a Infopédia são, para a maioria dos falantes, a forma corrente de consulta.

Um dicionário não é uma lista neutra. Cada um faz opções sobre que registos incluir (calão, regionalismos, estrangeirismos), como ordenar as aceções e quanta informação etimológica e gramatical fornecer.

facto, s. m. «acontecimento»; do lat. FACTUM «aquilo que foi feito».

Uma entrada típica condensa classe de palavra, definição e étimo — três camadas de informação numa só linha.

O VOC e os vocabulários ortográficos

Distinto do dicionário é o vocabulário ortográfico: não define palavras, lista-as na sua grafia correta, com indicação de género, plural e separação silábica. É o instrumento que materializa a norma. O Acordo Ortográfico de 1990, no seu artigo 2.º, previa expressamente a elaboração de um vocabulário ortográfico comum da língua, «tão completo quanto desejável e tão normalizador quanto possível».

Desse mandato resultou o Vocabulário Ortográfico Comum da Língua Portuguesa (VOC), desenvolvido pelo Instituto Internacional da Língua Portuguesa (IILP), órgão da CPLP. O VOC não substitui os vocabulários nacionais: integra-os. Cada Estado-membro elabora o seu vocabulário ortográfico nacional, e o VOC reúne-os numa plataforma única, tornando visíveis as palavras comuns e as que são próprias de cada país.

Os corpora: a língua observada

Um corpus é uma coleção extensa de textos reais — jornais, literatura, transcrições de fala — em formato eletrónico, anotada e pesquisável. Permite ao investigador sair da intuição e perguntar à língua: com que palavras coocorre saudade? Que preposição rege determinado verbo? Com que frequência se usa a mesóclise? A lexicografia moderna é, cada vez mais, baseada em corpora.

CorpusResponsávelNatureza
CRPC — Corpus de Referência do Português ContemporâneoCLUL (Univ. de Lisboa)Referência geral do PE
CETEMPúblicoLinguatecaTextos do jornal Público
Corpus do PortuguêsM. Davies & M. FerreiraHistórico e multivariedade
Corpus Tycho BraheUniv. de CampinasPortuguês histórico anotado

Com estes recursos, frequências, concordâncias e mudanças ao longo do tempo deixam de ser impressões para se tornarem dados. Um dicionário que decide se uma palavra já está «suficientemente estabelecida» para entrar consulta, hoje, a evidência de um corpus.

…uma profunda saudade de casa… · …a saudade dos que partiram… · …matar saudades…

Linhas de concordância como estas revelam os contextos típicos de uma palavra — aqui, os padrões em que saudade recorre.

Por que importam

Dicionários, vocabulários e corpora respondem a perguntas diferentes mas complementares: o que quer dizer, como se escreve e como se diz de facto. Juntos, transformam o léxico de um saber difuso dos falantes num objeto descrito, normalizado e verificável — e dão à língua portuguesa, repartida por vários continentes, instrumentos comuns para se conhecer a si mesma.

Fontes

  1. Rafael Bluteau. Vocabulario Portuguez, e Latino . Colégio das Artes, Coimbra (1712–1728)
  2. António de Morais Silva. Diccionario da Lingua Portugueza (1789)
  3. Academia das Ciências de Lisboa. Dicionário da Língua Portuguesa Contemporânea . Verbo (2001)
  4. Telmo Verdelho. As origens da gramaticografia e da lexicografia latino-portuguesas . Instituto Nacional de Investigação Científica (1995)