O que é MMLU — e por que todo mundo cita esse benchmark?
Toda vez que uma empresa lanca um modelo novo de IA, o comunicado de imprensa vem cheio de números: "nosso modelo atingiu 89,2% no MMLU", "superamos o GPT-4 no MMLU", e por aí vai. Mas o que exatamente é o MMLU? E esses percentuais significam alguma coisa na prática?
A resposta curta: sim, significa — mas com bastante ressalva. Vamos por partes.
MMLU: o nome todo e de onde veio
MMLU significa Massive Multitask Language Understanding. Foi criado por pesquisadores da Universidade de Berkeley em 2020, num paper chamado "Measuring Massive Multitask Language Understanding". A ideia era criar um teste que cobrisse conhecimento humano de forma ampla — do jeito que um vestibular abrangente faria, só que em escala muito maior.
O benchmark tem cerca de 14.000 questões de múltipla escolha, divididas em 57 áreas do conhecimento. Biologia, direito, história, matemática, medicina, economia, filosofia, física, lingüística... tudo junto. O modelo precisa responder perguntas de nível médio até pós-graduação.
"Qual é o efeito do aumento da pressão parcial de CO2 no sangue sobre o pH sanguíneo?" — esse é o tipo de pergunta de nível médico que aparece no teste. Há quatro alternativas, e o modelo precisa escolher a correta.
Como a pontuação funciona
Simples: é porcentagem de acertos. Um modelo que acerta 88% das 14.000 perguntas tem pontuacão de 88% no MMLU. Para ter uma referência, humanos especialistas (formados nas áreas testadas) acertam em média 89,8%. Humanos generalistas ficam em torno de 34% — porque ningumém é especialista em todas as 57 áreas ao mesmo tempo.
Isso significa que os melhores modelos de IA hoje já superam especialistas humanos em conhecimento teórico — pelo menos no formato de múltipla escolha. Impactante, né?
Por que o MMLU virou o padrão
Antes do MMLU, cada lab de IA usava seus próprios testes — o que tornava impossível comparar modelos de forma justa. O MMLU resolveu isso ao ser público, reproduzível e abrangente o suficiente pra não ser trivial de "trapacear".
Outro ponto: ele correlaciona bem com desempenho geral. Modelos que vão bem no MMLU tendem a ir bem em outras tarefas também. Não é perfeito, mas é um bom indicador de inteligência geral do modelo.
As limitações que ninguém conta
Aqui vem a parte importante. O MMLU tem problemas sérios que precisam ser entendidos:
- Só mede conhecimento teórico: múltipla escolha não testa raciocínio original, criatividade ou capacidade de resolver problemas novos.
- Contaminação de dados: como o benchmark é público desde 2020, há chance de que partes das questões tenham entrado nos dados de treino dos modelos — o que inflaria artificialmente as notas.
- Múltipla escolha é mais fácil: responder "A, B, C ou D" é diferente de explicar um conceito de zero.
- Não mede habilidades práticas: programar, escrever bem, raciocinar sobre problemas ambĂguos — o MMLU não pega nada disso.
Um modelo pode pontuar 90% no MMLU e ainda assim errar feio numa tarefa simples do dia a dia. O benchmark mede uma coisa específica — não "inteligência geral" em sentido amplo.
O que olhar além do MMLU
Para ter uma visão mais completa de um modelo, vale cruzar o MMLU com outros benchmarks:
- HumanEval: geracão de código funcional
- MATH: resolucão de problemas matemáticos passo a passo
- GPQA: questões de ciência no nível de doutorado
- MT-Bench: qualidade de convesacão em múltiplos turnos
Aqui no AI Universe você pode comparar todos esses benchmarks lado a lado. Use o comparador para ver como os principais modelos se saem em cada um deles.
Resumo rápido
O MMLU é um benchmark amplo de conhecimento teórico com 14 mil questões em 57 áreas. Virou padrão da indústria por ser reproduzível e abrangente. Os melhores modelos atuais chegam perto ou superam especialistas humanos nele. Mas ele não é tudo — é uma peça do quebra-cabeça, não o quadro completo.