Amália — o que faz bem, o que faz menos bem

O que é a Amália

A Amália é o primeiro grande modelo de linguagem treinado de raiz para o português de Portugal: 9 mil milhões de parâmetros sobre a base EuroLLM, com 5,8 mil milhões de tokens de pt-PT filtrados a partir de 195 terabytes do Arquivo.pt (domínios .br removidos de propósito), treinada nos supercomputadores MareNostrum 5 e Deucalion, financiada com ~5,5 M€ públicos e publicada em código aberto (Apache 2.0) por um consórcio NOVA LINCS + Instituto de Telecomunicações + Técnico. Detalhes no relatório técnico.

Para esta avaliação fizemos-lhe uma prova de 71 perguntas — provérbios, História, léxico, gramática, literatura, cultura e escrita livre — e demos a mesma prova ao Llama 3.1 8B da Meta, um modelo generalista do mesmo tamanho. Ambos correram localmente, quantizados (Q4), num Mac de 24 GB. Cada resposta passou ainda por um detetor automático de brasileirismos.

✓ O que faz mesmo bem

1. Fala a nossa variante como nenhum modelo do seu tamanho

Na nossa prova: 98% no léxico pt-PT (Llama 3.1: 61%), 100% na gramática europeia e zero brasileirismos em 71 respostas (Llama: 7, incluindo «ônibus», «metrô» e gerúndios). No benchmark oficial de viés pt-PT/pt-BR (P3B3), a Amália marca 95,9; o Llama 3.1 fica-se pelos 27,8 e o Qwen 3 pelos 18,9.

«Em Portugal, não se utiliza o termo "Copa do Mundo", que é uma expressão brasileira. O nome oficial em português é Mundial de Futebol da FIFA.» — AMALIA-9B, quando lhe perguntámos como se diz «Copa do Mundo» em Portugal

2. Reescrita e escrita formal à portuguesa

Converte «estou pegando o ônibus» em «estou a apanhar o autocarro», «suco» em «sumo», «café da manhã» em «pequeno-almoço» — e escreve cartas formais com «V. Exa.» e «Com os melhores cumprimentos» sem lhe pedirmos duas vezes. É a melhor ferramenta aberta para «despir» um texto de marcas brasileiras ou traduzir do inglês para pt-PT natural.

«O guarda-redes da minha equipa defendeu dois penálti na meia-final do Mundial, mas, no segundo tempo, o defesa marcou um autogolo e os adeptos abandonaram o relvado mais cedo.» — AMALIA-9B a reescrever «O goleiro do meu time pegou dois pênaltis na semifinal da Copa do Mundo, mas no segundo tempo o zagueiro fez um gol contra e a torcida deixou o gramado mais cedo»

3. Prosa portuguesa com alma

Pedimos-lhe cem palavras sobre uma manhã numa pastelaria de bairro. Saiu isto, sem retoques:

«O sol da manhã filtrava-se através das janelas de vidro da Pastelaria "Doce Sonho", projetando padrões dourados no chão de azulejos. O aroma a pão quente e canela envolvia o ar, misturando-se com o cheiro doce dos pastéis de nata. Dona Maria, a proprietária, abria as portas com um sorriso caloroso…» — AMALIA-9B, escrita livre da prova (aberta-02)

4. Cultura e História de Portugal no sangue

88% na nossa secção de História (Zamora, Aljubarrota, 1755, 5 de Outubro) e 88% em cultura — sabe que santo se celebra em Lisboa e qual no Porto, onde nasceu o pastel de Belém, e que o ponto mais alto de Portugal é o Pico, nos Açores, e não a Serra da Estrela.

«Em Lisboa, celebra-se o Santo António (13 de junho) e no Porto, São João (24 de junho).» — AMALIA-9B, seca e certeira

5. Segurança acima da média dos modelos abertos

Entre modelos totalmente abertos, tem das taxas mais baixas de sucesso de ataques adversariais (ADV-Bench 0,8%, XSTest 0,9%) — e existe um modelo-guarda dedicado, o amaliaguard-4b.

✗ O que faz menos bem (do que os melhores da atualidade)

1. Atualidade e notícias — não lhe perguntes

Como qualquer modelo pequeno e sem acesso à internet, inventa com confiança sobre acontecimentos recentes. Na nossa pergunta-armadilha sobre o Mundial 2022:

«Portugal não se qualificou para o Mundial 2022 no Qatar.» — AMALIA-9B, em pt-PT impecável e factualmente falso (Portugal jogou, goleou a Suíça por 6-1 e caiu nos quartos com Marrocos)

É por isto que este Balcão não tem chat livre nem responde a notícias: usamos o modelo no que é forte (a língua) e fixamos nós os factos.

2. Provérbios: conhece o tom, inventa o resto

Surpresa da prova: só completou corretamente 40% dos provérbios (o Llama: 8%). Quando não sabe, improvisa com ar convicto:

«A cavalo dado não se toca na rédea» · «Abril, mês de flores, traz a primavera ao coração» — AMALIA-9B a inventar terminações (os verdadeiros: «...não se olha o dente» e «Abril, águas mil»)

Por isso, no Balcão, o provérbio vem sempre de uma lista curada — o modelo só o explica.

3. Factos finos escorregam — mesmo nos temas dela

Disse-nos que o fado foi classificado pela UNESCO em 2013 (foi em 2011), deu 1.946 metros à Torre da Serra da Estrela (são 1.993) e falhou a referência das «mil maneiras de bacalhau». O mais revelador foi na noite mais famosa da história recente: acertou na «Grândola», mas inventou a outra senha —

«"E Depois de Nós" — também de Zeca Afonso, transmitida na Rádio Renascença.» — AMALIA-9B. A canção chama-se «E Depois do Adeus», é de Paulo de Carvalho, e passou nos Emissores Associados de Lisboa. Errou o título, o autor e a rádio — com toda a confiança.

Em conhecimento enciclopédico geral (MMLU), fica atrás do Gemma 3-12B e do Qwen 3-8B — e muito atrás dos modelos de fronteira (GPT, Claude, Gemini). Moral: até no «terreno dela», verifica datas e nomes antes de publicar.

4. Matemática e raciocínio não são o forte

No GSM8K (problemas de matemática), 52,4 contra 68,0 do Llama 3.1 e 79,2 do Gemma 3. Para cálculos, código complexo ou raciocínio longo, os grandes modelos comerciais continuam noutra liga.

Os números, lado a lado

Prova (71 perguntas, local, Q4)	AMALIA-9B	Llama 3.1-8B
Léxico pt-PT (autocarro, Mundial, guarda-redes…)	98%	61%
Gramática europeia (estar a…, ênclise, facto/registo)	100%	100%
História de Portugal	88%	90%
Cultura e gastronomia	88%	69%
Literatura	76%	81%
Provérbios (completar)	40%	8%
Brasileirismos nas 71 respostas	0	7

Benchmarks do relatório técnico (modelos sem quantização): P3B3 (viés pt-PT) — AMALIA 95,9, Llama 3.1-8B 27,8, Qwen 3-8B 18,9 · PT-Completions — AMALIA 67,1, Llama 38,6, Gemma 3-12B 21,4 · GSM8K — AMALIA 52,4, Llama 68,0, Gemma 79,2. A quantização Q4 usada na nossa prova pode degradar ligeiramente os resultados face ao modelo completo.

A que distância fica da fronteira (GPT, Claude, Gemini)?

Sejamos francos: a Amália não compete com os modelos de fronteira em inteligência geral — nem é esse o jogo dela. Nota importante: o GPT e o Claude já falam muito bem português de Portugal; o que não têm é o treino alicerçado em fontes portuguesas (o Arquivo.pt inteiro, filtrado), a auditabilidade de pesos e dados abertos, nem a possibilidade de correr offline, de graça, no teu computador ou num organismo público sem enviar dados a terceiros. A distância mede-se assim:

	AMALIA-9B	Abertos do mesmo tamanho (Llama 3.1-8B, Gemma 3-12B)	Fronteira (GPT, Claude, Gemini)
Português de Portugal (viés P3B3)	95,9 — imbatível	27,8 / fraco	já muito bons a falar pt-PT — mas sem o contexto das fontes portuguesas nem auditabilidade
Conhecimento geral (MMLU)	58,8	58,5–68,0	~90
Matemática (GSM8K)	52,4	68–79	praticamente resolvido
Contexto	32 mil tokens	128 mil+	200 mil – 1 milhão+
Conhecimento do mundo	até jun. 2024, sem internet	idem	pesquisa em direto, ferramentas, agentes
Multimodal / ferramentas	visão e fala em modelos separados; sem uso de ferramentas	parcial	nativo
Onde corre	no teu portátil, de graça, offline	idem	só na nuvem deles, a pagar
Transparência	pesos + dados + relatório abertos	pesos abertos, dados fechados	fechado

Em resumo: para que serve

Usa a Amália para…	Não uses a Amália para…
Reescrever texto em pt-PT limpo	Notícias e atualidade
Cartas e e-mails formais portugueses	Factos precisos sem verificação
Explicar cultura e tradições (com factos fornecidos)	Matemática e cálculo
Trabalhar offline, com privacidade total, de graça	Substituir os modelos de fronteira em raciocínio

Corre-a na tua máquina

O Balcão funciona ao vivo se tiveres o Ollama a correr localmente (o site nunca envia o teu texto para servidor nenhum — vai direto do teu browser para o teu próprio computador):

brew install ollama
OLLAMA_ORIGINS="*" ollama serve
ollama pull hf.co/duarteocarmo/AMALIA-9B-0626-SFT-GGUF:Q4_K_M

~5,6 GB; corre bem num Mac com 16 GB+. Sem Ollama, o Balcão mostra respostas reais gravadas.

Metodologia e ligações

Prova corrida a 2 de julho de 2026 com temperatura 0,2 e prompt de sistema neutro (sem pedir português europeu — era esse o teste). Pontuação por palavras-chave + detetor automático de brasileirismos (léxico, ortografia, gerúndio, próclise, futebolês). · amalia-llm no Hugging Face · relatório técnico · amaliallm.pt