O que e MMLU e por que esse benchmark importa tanto?

Toda vez que uma empresa lanca um modelo novo de IA, o comunicado de imprensa vem cheio de números: "nosso modelo atingiu 89,2% no MMLU", "superamos o GPT-4 no MMLU", e por aí vai. Mas o que exatamente é o MMLU? E esses percentuais significam alguma coisa na prática?

A resposta curta: sim, significa — mas com bastante ressalva. Vamos por partes.

MMLU: o nome todo e de onde veio

MMLU significa Massive Multitask Language Understanding. Foi criado por pesquisadores da Universidade de Berkeley em 2020, num paper chamado "Measuring Massive Multitask Language Understanding". A ideia era criar um teste que cobrisse conhecimento humano de forma ampla — do jeito que um vestibular abrangente faria, só que em escala muito maior.

O benchmark tem cerca de 14.000 questões de múltipla escolha, divididas em 57 áreas do conhecimento. Biologia, direito, história, matemática, medicina, economia, filosofia, física, lingüística... tudo junto. O modelo precisa responder perguntas de nível médio até pós-graduação.

Exemplo de questão MMLU

"Qual é o efeito do aumento da pressão parcial de CO2 no sangue sobre o pH sanguíneo?" — esse é o tipo de pergunta de nível médico que aparece no teste. Há quatro alternativas, e o modelo precisa escolher a correta.

Como a pontuação funciona

Simples: é porcentagem de acertos. Um modelo que acerta 88% das 14.000 perguntas tem pontuacão de 88% no MMLU. Para ter uma referência, humanos especialistas (formados nas áreas testadas) acertam em média 89,8%. Humanos generalistas ficam em torno de 34% — porque ningumém é especialista em todas as 57 áreas ao mesmo tempo.

Isso significa que os melhores modelos de IA hoje já superam especialistas humanos em conhecimento teórico — pelo menos no formato de múltipla escolha. Impactante, né?

Claude 3.5 Sonnet

88%

GPT-4o

85%

Gemini 1.5 Pro

85%

Llama 3 70B

82%

Humano especialista

~90%

Por que o MMLU virou o padrão

Antes do MMLU, cada lab de IA usava seus próprios testes — o que tornava impossível comparar modelos de forma justa. O MMLU resolveu isso ao ser público, reproduzível e abrangente o suficiente pra não ser trivial de "trapacear".

Outro ponto: ele correlaciona bem com desempenho geral. Modelos que vão bem no MMLU tendem a ir bem em outras tarefas também. Não é perfeito, mas é um bom indicador de inteligência geral do modelo.

As limitações que ninguém conta

Aqui vem a parte importante. O MMLU tem problemas sérios que precisam ser entendidos:

Só mede conhecimento teórico: múltipla escolha não testa raciocínio original, criatividade ou capacidade de resolver problemas novos.
Contaminação de dados: como o benchmark é público desde 2020, há chance de que partes das questões tenham entrado nos dados de treino dos modelos — o que inflaria artificialmente as notas.
Múltipla escolha é mais fácil: responder "A, B, C ou D" é diferente de explicar um conceito de zero.
Não mede habilidades práticas: programar, escrever bem, raciocinar sobre problemas ambíguos — o MMLU não pega nada disso.

Um modelo pode pontuar 90% no MMLU e ainda assim errar feio numa tarefa simples do dia a dia. O benchmark mede uma coisa específica — não "inteligência geral" em sentido amplo.

O que olhar além do MMLU

Para ter uma visão mais completa de um modelo, vale cruzar o MMLU com outros benchmarks:

HumanEval: geracão de código funcional
MATH: resolucão de problemas matemáticos passo a passo
GPQA: questões de ciência no nível de doutorado
MT-Bench: qualidade de convesacão em múltiplos turnos

Aqui no AI Universe você pode comparar todos esses benchmarks lado a lado. Use o comparador para ver como os principais modelos se saem em cada um deles.

Resumo rápido

O MMLU é um benchmark amplo de conhecimento teórico com 14 mil questões em 57 áreas. Virou padrão da indústria por ser reproduzível e abrangente. Os melhores modelos atuais chegam perto ou superam especialistas humanos nele. Mas ele não é tudo — é uma peça do quebra-cabeça, não o quadro completo.

O que é MMLU — e por que todo mundo cita esse benchmark?

MMLU: o nome todo e de onde veio

Como a pontuação funciona

Por que o MMLU virou o padrão

As limitações que ninguém conta

O que olhar além do MMLU

Resumo rápido