Cultura 風 · 10
O português no mundo digital
Uma das grandes línguas da internet, o português enfrenta na tecnologia e na ciência desafios próprios — acentos e codificação, vocabulário novo, ferramentas de língua e a hegemonia do inglês.
ptFalado por mais de duzentos e cinquenta milhões de pessoas em quatro continentes, o português é hoje uma das línguas mais presentes na internet e uma das mais publicadas, traduzidas e processadas por máquinas. Essa dimensão global, porém, não o dispensa de desafios próprios: a representação dos seus acentos nos sistemas informáticos, a criação acelerada de vocabulário técnico, a construção de ferramentas de língua e o peso esmagador do inglês na comunicação científica.
Uma das línguas da rede
Por número de utilizadores e por volume de conteúdos, o português figura sistematicamente entre as primeiras línguas da internet, impulsionado sobretudo pelo peso demográfico do Brasil e pela vitalidade das comunidades lusófonas em Portugal, em África e na diáspora. As redes sociais, o comércio eletrónico e a produção audiovisual fizeram do espaço digital um dos principais territórios vivos da língua — e, com ele, um motor de difusão tão poderoso quanto a escola ou a imprensa o foram noutras épocas.
A gestão dos endereços reflete essa pluralidade: o domínio de topo .pt é administrado pela Associação DNS.PT, e o .br pelo Registro.br, cada um com as suas regras. Desde 2005, é possível registar domínios com caracteres acentuados (.pt aceita ç, á, ã e afins), um reconhecimento técnico de que a língua não cabe no alfabeto inglês.
Acentos, teclas e codificação
O primeiro obstáculo do português digital foi físico e técnico. Os teclados, as normas de codificação e os primeiros programas foram concebidos para o inglês, e durante décadas os caracteres acentuados — á, é, ã, õ, ç — eram fonte constante de erros: os célebres «caracteres estranhos» que substituíam as letras quando dois sistemas não se entendiam.
A generalização da norma Unicode e da codificação UTF-8, a partir dos anos 2000, resolveu em grande medida o problema, permitindo representar de forma uniforme todo o alfabeto português — e praticamente todas as escritas do mundo. O teclado português segue a disposição QWERTY com acentos mortos (prime-se primeiro o acento, depois a vogal), enquanto o teclado brasileiro ABNT2 inclui uma tecla dedicada ao ç.
Um vocabulário em construção
Cada onda tecnológica traz consigo uma vaga de anglicismos que a língua vai absorvendo, adaptando ou substituindo. Uns entram crus (software, email, site); outros são aportuguesados na morfologia (bloguar, tuitar, formatar); outros ainda recebem equivalentes patrimoniais que acabam por vingar (descarregar por download, navegador por browser).
Carreguei as fotografias para a nuvem e enviei-te a hiperligação por correio eletrónico.
I uploaded the photos to the cloud and sent you the link by email.
É um domínio em que as variedades europeia e brasileira divergem com nitidez, muitas vezes por escolhas de localização de software feitas independentemente de cada lado do Atlântico:
| Inglês | Português europeu | Português do Brasil |
|---|---|---|
| screen | ecrã | tela |
| mouse | rato | mouse |
| file | ficheiro | arquivo |
| user | utilizador | usuário |
| download | descarregar | baixar |
| password | palavra-passe | senha |
| mobile phone | telemóvel | celular |
O rato [ˈʁatu] que se desliza sobre a secretária portuguesa é, do outro lado do oceano, simplesmente um mouse.
A língua e as máquinas
Para que um computador trate o português — o corrija, o traduza, o transcreva da fala ou o pesquise —, é preciso primeiro descrevê-lo em dados. Esse trabalho de processamento de linguagem natural assenta em grandes corpora e em recursos linguísticos construídos por equipas académicas. Em português, projetos como a Linguateca e corpora de referência como o CETEMPúblico (cento e oitenta milhões de palavras do jornal Público) deram base a corretores ortográficos, motores de busca e sistemas de tradução.
Os corretores ortográficos foram, para muitos falantes, o primeiro contacto com a tecnologia da língua — e tornaram-se também um delicado instrumento de norma, ao decidir, em cada teclado, o que «está certo». A tradução automática e o reconhecimento de voz, hoje assentes em redes neuronais, atingiram no português um desempenho elevado, embora as variedades menos representadas em dados — as africanas, sobretudo — continuem em desvantagem face ao europeu e ao brasileiro.
O português na ciência
Se na rede o português é língua maior, na comunicação científica internacional é língua menor. A esmagadora maioria dos artigos de ciência publica-se hoje em inglês, e os investigadores lusófonos, como os de quase todo o mundo, escrevem em inglês para serem lidos e citados. O português mantém-se vigoroso na divulgação, no ensino e nas ciências sociais e humanas, mas recua nas ciências exatas e da vida.
Contra essa tendência atuam iniciativas de acesso aberto como a SciELO (Scientific Electronic Library Online), nascida no Brasil em 1997, que dá visibilidade internacional a revistas em português. O Acordo Ortográfico de 1990, ao unificar a grafia, foi também pensado para facilitar a circulação de textos — científicos e outros — num espaço digital comum a todos os países da língua.
Um território a ocupar
O lugar do português no mundo digital não está garantido: depende de teclados e normas que o acolham, de vocabulário que o mantenha capaz de nomear o novo, de ferramentas que o processem e de uma vontade política de o usar na ciência e na tecnologia. É, neste sentido, um dos terrenos onde hoje se decide a vitalidade futura da língua.
Fontes
- Language and the Internet . Cambridge University Press (2006)
- Avaliação conjunta: um novo paradigma no processamento computacional da língua portuguesa . IST Press (2007)
- A Língua Portuguesa na Era Digital . Springer (META-NET White Paper Series) (2012)