Cultura 風 · 10

O português no mundo digital

Uma das grandes línguas da internet, o português enfrenta na tecnologia e na ciência desafios próprios — acentos e codificação, vocabulário novo, ferramentas de língua e a hegemonia do inglês.

pt

Falado por mais de duzentos e cinquenta milhões de pessoas em quatro continentes, o português é hoje uma das línguas mais presentes na internet e uma das mais publicadas, traduzidas e processadas por máquinas. Essa dimensão global, porém, não o dispensa de desafios próprios: a representação dos seus acentos nos sistemas informáticos, a criação acelerada de vocabulário técnico, a construção de ferramentas de língua e o peso esmagador do inglês na comunicação científica.

Uma das línguas da rede

Por número de utilizadores e por volume de conteúdos, o português figura sistematicamente entre as primeiras línguas da internet, impulsionado sobretudo pelo peso demográfico do Brasil e pela vitalidade das comunidades lusófonas em Portugal, em África e na diáspora. As redes sociais, o comércio eletrónico e a produção audiovisual fizeram do espaço digital um dos principais territórios vivos da língua — e, com ele, um motor de difusão tão poderoso quanto a escola ou a imprensa o foram noutras épocas.

A gestão dos endereços reflete essa pluralidade: o domínio de topo .pt é administrado pela Associação DNS.PT, e o .br pelo Registro.br, cada um com as suas regras. Desde 2005, é possível registar domínios com caracteres acentuados (.pt aceita ç, á, ã e afins), um reconhecimento técnico de que a língua não cabe no alfabeto inglês.

Acentos, teclas e codificação

O primeiro obstáculo do português digital foi físico e técnico. Os teclados, as normas de codificação e os primeiros programas foram concebidos para o inglês, e durante décadas os caracteres acentuados — á, é, ã, õ, ç — eram fonte constante de erros: os célebres «caracteres estranhos» que substituíam as letras quando dois sistemas não se entendiam.

A generalização da norma Unicode e da codificação UTF-8, a partir dos anos 2000, resolveu em grande medida o problema, permitindo representar de forma uniforme todo o alfabeto português — e praticamente todas as escritas do mundo. O teclado português segue a disposição QWERTY com acentos mortos (prime-se primeiro o acento, depois a vogal), enquanto o teclado brasileiro ABNT2 inclui uma tecla dedicada ao ç.

Um vocabulário em construção

Cada onda tecnológica traz consigo uma vaga de anglicismos que a língua vai absorvendo, adaptando ou substituindo. Uns entram crus (software, email, site); outros são aportuguesados na morfologia (bloguar, tuitar, formatar); outros ainda recebem equivalentes patrimoniais que acabam por vingar (descarregar por download, navegador por browser).

Carreguei as fotografias para a nuvem e enviei-te a hiperligação por correio eletrónico.

I uploaded the photos to the cloud and sent you the link by email.

É um domínio em que as variedades europeia e brasileira divergem com nitidez, muitas vezes por escolhas de localização de software feitas independentemente de cada lado do Atlântico:

InglêsPortuguês europeuPortuguês do Brasil
screenecrãtela
mouseratomouse
fileficheiroarquivo
userutilizadorusuário
downloaddescarregarbaixar
passwordpalavra-passesenha
mobile phonetelemóvelcelular

O rato [ˈʁatu] que se desliza sobre a secretária portuguesa é, do outro lado do oceano, simplesmente um mouse.

A língua e as máquinas

Para que um computador trate o português — o corrija, o traduza, o transcreva da fala ou o pesquise —, é preciso primeiro descrevê-lo em dados. Esse trabalho de processamento de linguagem natural assenta em grandes corpora e em recursos linguísticos construídos por equipas académicas. Em português, projetos como a Linguateca e corpora de referência como o CETEMPúblico (cento e oitenta milhões de palavras do jornal Público) deram base a corretores ortográficos, motores de busca e sistemas de tradução.

Os corretores ortográficos foram, para muitos falantes, o primeiro contacto com a tecnologia da língua — e tornaram-se também um delicado instrumento de norma, ao decidir, em cada teclado, o que «está certo». A tradução automática e o reconhecimento de voz, hoje assentes em redes neuronais, atingiram no português um desempenho elevado, embora as variedades menos representadas em dados — as africanas, sobretudo — continuem em desvantagem face ao europeu e ao brasileiro.

O português na ciência

Se na rede o português é língua maior, na comunicação científica internacional é língua menor. A esmagadora maioria dos artigos de ciência publica-se hoje em inglês, e os investigadores lusófonos, como os de quase todo o mundo, escrevem em inglês para serem lidos e citados. O português mantém-se vigoroso na divulgação, no ensino e nas ciências sociais e humanas, mas recua nas ciências exatas e da vida.

Contra essa tendência atuam iniciativas de acesso aberto como a SciELO (Scientific Electronic Library Online), nascida no Brasil em 1997, que dá visibilidade internacional a revistas em português. O Acordo Ortográfico de 1990, ao unificar a grafia, foi também pensado para facilitar a circulação de textos — científicos e outros — num espaço digital comum a todos os países da língua.

Um território a ocupar

O lugar do português no mundo digital não está garantido: depende de teclados e normas que o acolham, de vocabulário que o mantenha capaz de nomear o novo, de ferramentas que o processem e de uma vontade política de o usar na ciência e na tecnologia. É, neste sentido, um dos terrenos onde hoje se decide a vitalidade futura da língua.

Fontes

  1. David Crystal. Language and the Internet . Cambridge University Press (2006)
  2. Diana Santos (ed.). Avaliação conjunta: um novo paradigma no processamento computacional da língua portuguesa . IST Press (2007)
  3. António Branco et al.. A Língua Portuguesa na Era Digital . Springer (META-NET White Paper Series) (2012)