📄 Artigos ← Comparador
Explicação

O que é MMLU — e por que todo mundo cita esse benchmark?

📅 23 de maio de 2025 ⏰ 5 min de leitura 📋 AI Universe

Toda vez que uma empresa lanca um modelo novo de IA, o comunicado de imprensa vem cheio de números: "nosso modelo atingiu 89,2% no MMLU", "superamos o GPT-4 no MMLU", e por aí vai. Mas o que exatamente é o MMLU? E esses percentuais significam alguma coisa na prática?

A resposta curta: sim, significa — mas com bastante ressalva. Vamos por partes.

MMLU: o nome todo e de onde veio

MMLU significa Massive Multitask Language Understanding. Foi criado por pesquisadores da Universidade de Berkeley em 2020, num paper chamado "Measuring Massive Multitask Language Understanding". A ideia era criar um teste que cobrisse conhecimento humano de forma ampla — do jeito que um vestibular abrangente faria, só que em escala muito maior.

O benchmark tem cerca de 14.000 questões de múltipla escolha, divididas em 57 áreas do conhecimento. Biologia, direito, história, matemática, medicina, economia, filosofia, física, lingüística... tudo junto. O modelo precisa responder perguntas de nível médio até pós-graduação.

Exemplo de questão MMLU

"Qual é o efeito do aumento da pressão parcial de CO2 no sangue sobre o pH sanguíneo?" — esse é o tipo de pergunta de nível médico que aparece no teste. Há quatro alternativas, e o modelo precisa escolher a correta.

Como a pontuação funciona

Simples: é porcentagem de acertos. Um modelo que acerta 88% das 14.000 perguntas tem pontuacão de 88% no MMLU. Para ter uma referência, humanos especialistas (formados nas áreas testadas) acertam em média 89,8%. Humanos generalistas ficam em torno de 34% — porque ningumém é especialista em todas as 57 áreas ao mesmo tempo.

Isso significa que os melhores modelos de IA hoje já superam especialistas humanos em conhecimento teórico — pelo menos no formato de múltipla escolha. Impactante, né?

Claude 3.5 Sonnet
88%
GPT-4o
85%
Gemini 1.5 Pro
85%
Llama 3 70B
82%
Humano especialista
~90%

Por que o MMLU virou o padrão

Antes do MMLU, cada lab de IA usava seus próprios testes — o que tornava impossível comparar modelos de forma justa. O MMLU resolveu isso ao ser público, reproduzível e abrangente o suficiente pra não ser trivial de "trapacear".

Outro ponto: ele correlaciona bem com desempenho geral. Modelos que vão bem no MMLU tendem a ir bem em outras tarefas também. Não é perfeito, mas é um bom indicador de inteligência geral do modelo.

As limitações que ninguém conta

Aqui vem a parte importante. O MMLU tem problemas sérios que precisam ser entendidos:

Um modelo pode pontuar 90% no MMLU e ainda assim errar feio numa tarefa simples do dia a dia. O benchmark mede uma coisa específica — não "inteligência geral" em sentido amplo.

O que olhar além do MMLU

Para ter uma visão mais completa de um modelo, vale cruzar o MMLU com outros benchmarks:

Aqui no AI Universe você pode comparar todos esses benchmarks lado a lado. Use o comparador para ver como os principais modelos se saem em cada um deles.

Resumo rápido

O MMLU é um benchmark amplo de conhecimento teórico com 14 mil questões em 57 áreas. Virou padrão da indústria por ser reproduzível e abrangente. Os melhores modelos atuais chegam perto ou superam especialistas humanos nele. Mas ele não é tudo — é uma peça do quebra-cabeça, não o quadro completo.

Leia também