Bastidores — como se fez o Balcão e como se fez a Amália

Como fizemos este site (numa tarde, com o modelo a correr num portátil)

A prova. Escrevemos um exame de 71 perguntas de português de Portugal — provérbios para completar, História (de Zamora ao 25 de Abril), léxico pt-PT vs pt-BR (autocarro/ônibus, Mundial/Copa do Mundo), gramática europeia, literatura, cultura e cinco textos de escrita livre. O prompt de sistema era neutro: não pedimos português europeu a nenhum modelo. Era esse o teste — qual é a variante natural de cada um.
O detetor de brasileirismos. Um verificador automático que procura em cada resposta léxico pt-BR (ônibus, geladeira, metrô…), ortografia pt-BR (gênero, prêmio…), gerúndio progressivo («estou fazendo»), próclise em início de frase («Me passa…») e futebolês («gol», «goleiro», «torcida», «Copa do Mundo»).
Os exames. Corremos a AMALIA-9B (0626-SFT, quantizada a 4 bits, ~5,6 GB) e o Llama 3.1-8B da Meta num Mac com 24 GB de memória, via Ollama — sem nuvem, sem GPU de servidor. Cada modelo respondeu às 71 perguntas; pontuação automática por palavras-chave, com repescagem manual quando o modelo tinha razão e a grelha não («portagens» no plural conta, pois claro).
O Balcão. Em vez de um chat aberto, quatro ferramentas fechadas viradas para o que o modelo faz bem. Os provérbios e os episódios históricos vêm de listas curadas — os factos vão fixados no pedido; o modelo só põe a língua. E não responde a notícias, deliberadamente (vê porquê mais abaixo).
A publicação. Site estático nos Cloudflare Workers. Quando corre localmente, fala com o teu Ollama; na internet, mostra respostas reais gravadas («modo montra») até ligares o teu.

Como se fez a Amália (o que se sabe, e é bastante)

A Amália é invulgarmente transparente para um LLM: o consórcio (NOVA LINCS, Instituto de Telecomunicações e Técnico) publicou relatório técnico, pesos, dados de treino de afinação e até os conjuntos de avaliação, tudo no Hugging Face. Em resumo:

Base: arquitetura LLaMA de 9 mil milhões de parâmetros, continuação do EuroLLM (treinado em ~4 biliões de tokens multilingues), com contexto de 32 mil tokens.
O tesouro pt-PT: 195 terabytes de arquivos WARC do Arquivo.pt — a web portuguesa arquivada desde os anos 90 — filtrados até sobrarem 5,8 mil milhões de tokens de qualidade: remoção deliberada de domínios .br, desduplicação MinHash, filtros de qualidade (FineWeb, Gopher), e remoção de dados pessoais para cumprimento do RGPD. Mais livros públicos, num total de ~107 mil milhões de tokens de treino intermédio.
Afinação: 5,1 milhões de exemplos de instrução (SFT) — grande parte traduzida e filtrada para pt-PT com um juiz automático — e otimização por preferências (DPO) com 200 mil prompts, 32 respostas candidatas cada. Treino de afinação: 76 + 12 horas em 64 GPUs H100.
Máquinas: supercomputadores públicos — Deucalion (Guimarães) e MareNostrum 5 (Barcelona), via rede EuroHPC.
Dinheiro: investimento público reforçado para 7 milhões de euros até 2027, com uma versão de 22 mil milhões de parâmetros planeada. Para escala: os laboratórios de fronteira gastam milhares de milhões de dólares por ano.
Data de fecho dos dados: junho de 2024. Guarda este facto — explica muita coisa.

O enquadramento legal (que é, em si, uma novidade)

A Amália foi construída para ser irrepreensível aos olhos da lei europeia — uma escolha rara no mundo dos LLM:

Treinada com dados publicamente disponíveis e legalmente acessíveis, ao abrigo das exceções do direito da UE para investigação científica (a exceção de prospeção de textos e dados).
Licença Apache 2.0 — uso, modificação e comércio livres — com um mecanismo para reportar preocupações, incluindo de propriedade intelectual.
Classificada, à luz do AI Act europeu, como modelo de IA de finalidade geral (GPAI) sem risco sistémico.
Faz parte de uma vaga a que se tem chamado «nacionalismo de IA»: como o Apertus suíço, é um Estado a decidir que a sua língua e a sua soberania digital não ficam à espera de Silicon Valley. A administração pública portuguesa pode usá-la sem enviar dados para fora.

Na nossa prova vimos as duas faces na mesma resposta: léxico pt-PT a 98% e zero brasileirismos, mas provérbios inventados e uma armadilha de atualidade em que caiu de caras — coerente com uma cabeça que parou em junho de 2024 e nunca leu um jornal. A comparação completa, com exemplos e a tabela de distância para o GPT, o Claude e o Gemini, está na página de avaliação.

A conclusão de engenharia é simples: a Amália é uma especialista na língua, não uma enciclopédia nem um oráculo. O Balcão foi desenhado à volta disso — factos fixados por nós, língua posta por ela, e nada de notícias.

Fontes e ligações

Organização amalia-llm no Hugging Face — 9 modelos, 81 conjuntos de dados
Relatório técnico AMALIA (arXiv, junho 2026)
amaliallm.pt — site oficial do projeto
Notícias ao Minuto — dúvidas principais sobre a IA portuguesa
DN — código aberto e investimento reforçado para 7 M€
RTP — apresentação oficial (1 de julho de 2026)
Resolução do Conselho de Ministros n.º 201/2024 — a decisão que criou o projeto
Prova, detetor e este site: pasta prova-amalia — código aberto como a homenageada.