생성형 AI 경쟁이 치열해질수록 모델 발표 자료에는 더 많은 점수가 등장합니다.
하지만 진짜 중요한 질문은 “누가 몇 점이냐”보다 “무엇을 어떤 방식으로 재고 있느냐”입니다.
기존 MMLU, GSM8K, HumanEval 같은 벤치마크가 점점 포화되면서, 글로벌 AI 평가는 이제 멀티모달, 에이전트형 과제, 웹 탐색, 실시간 갱신형 코드 문제,
장기 작업 수행, 인터랙티브 환경, 초고난도 수학·과학 문제 쪽으로 빠르게 이동하고 있습니다.
이 글은 글로벌 주요 AI 벤치마크 고도화의 흐름을 한 번에 정리하는 실전 가이드입니다.
왜 AI 벤치마크는 고도화되고 있나
글로벌 주요 AI 벤치마크 고도화는 단순한 시험문제 교체가 아닙니다. 모델이 너무 빨리 강해지면서, 예전에는 충분히 어려웠던 평가들이 이제는 상위권 모델을 제대로 구분하지 못하게 됐기 때문입니다. 스탠퍼드 HAI는 2025 AI Index에서 전통적인 MMLU, GSM8K, HumanEval의 포화와 함께, 더 어려운 MMMU, GPQA, SWE-bench 같은 평가로 관심이 옮겨가고 있다고 설명했습니다.
과거의 대표 벤치마크는 대체로 짧은 정답형 문제를 잘 푸는지, 또는 제한된 코딩 과제를 해결하는지를 보는 방식이었습니다. 하지만 최신 모델은 이미 이런 시험에 너무 익숙해졌습니다. 학습 데이터에 비슷한 문제가 들어갔을 가능성도 커졌고, 평가셋이 공개된 뒤 오랜 시간이 지나면서 간접 오염 위험도 높아졌습니다. 그래서 이제는 더 새로운 문제, 더 복합적인 작업, 더 긴 시간 동안의 계획과 수정, 더 많은 도구 사용 능력을 재는 방향으로 벤치마크가 바뀌고 있습니다.
AI Index 2025에 따르면 1년 사이 모델 성능은 MMMU, GPQA, SWE-bench에서 각각 18.8, 48.9, 67.3 퍼센트포인트 상승했습니다. 벤치마크가 어렵더라도 금방 따라잡히고 있다는 뜻입니다.
이 변화는 결국 한 가지 사실을 보여줍니다. AI 평가의 난제는 이제 “객관식 몇 점”이 아니라, 실제로 새로운 문제를 만나도 스스로 탐색하고, 도구를 쓰고, 긴 과제를 완수하고, 멀티모달 정보를 이해하고, 오염되지 않은 환경에서 실력을 드러내는가입니다.
기존 벤치마크의 한계와 포화
기존 대표 벤치마크가 완전히 쓸모없어진 것은 아닙니다. 다만 선두권 모델을 정밀하게 구분하는 힘이 약해졌습니다. AI Index 2025는 이 현상을 명확히 지적했고, 일부 업계 리더보드에서는 아예 MMLU를 “구형 벤치마크”로 분류해 제외하기도 합니다.
MMLU: 폭넓지만 이제는 너무 익숙한 시험
MMLU는 오랫동안 범용 지식과 언어 이해의 대표 시험처럼 쓰였습니다. 하지만 지금은 상위 모델들이 비슷한 고득점 구간에 모이면서 차별력이 줄어들었습니다. 그래서 등장한 것이 MMLU-Pro입니다. MMLU-Pro는 기존보다 더 추론 중심 문항을 넣고, 선택지를 4개에서 10개로 늘려 우연한 정답 가능성을 낮췄습니다.
GSM8K와 HumanEval도 비슷한 문제를 안고 있다
수학 추론용 GSM8K, 코딩용 HumanEval도 상징적 의미는 크지만, 최신 모델들의 실제 복합 능력을 재기에는 한계가 있다는 지적이 많습니다. 특히 코딩은 이제 단순 코드 한 조각 생성보다, 실제 저장소 문맥 이해와 디버깅, 테스트, 수정 반복까지 봐야 한다는 요구가 강해졌습니다.
오염 문제는 점점 더 심각해졌다
공개 벤치마크는 시간이 지날수록 훈련 데이터, 평가 도구, 논문, 블로그, 리더보드에 반복적으로 노출됩니다. 그 결과 모델이 “진짜 일반화”를 보여주는지, 아니면 “어딘가에서 비슷한 문제를 많이 봐서 익숙한 것인지” 구분하기 어려워집니다. 그래서 LiveCodeBench, LiveBench, SWE-bench-Live처럼 주기적으로 새로운 문제를 추가하는 평가가 중요해졌습니다.
주요 벤치마크별 고도화 흐름
지금 글로벌 AI 평가 체계는 한두 개 시험으로 설명되지 않습니다. 분야별로 어떤 능력을 더 정교하게 재고 있는지 이해해야 전체 흐름이 보입니다.
| 벤치마크 | 무엇을 재나 | 왜 중요해졌나 | 고도화 포인트 |
|---|---|---|---|
| MMLU-Pro | 범용 지식 + 더 강한 추론 | MMLU 포화 대응 | 선택지 10개, 더 어려운 추론형 문항 |
| MMMU | 대학 수준 멀티모달 이해 | 텍스트만으로 부족한 시대 | 11.5K 멀티모달 문항, 6개 핵심 분야 |
| GPQA | 대학원급 과학 추론 | Google-proof 과학 문항 | 전문가 제작, 비전문가·웹검색으로도 어려움 |
| SWE-bench Verified | 실제 GitHub 이슈 해결 | 실전 코딩 평가 전환 | 500개 인간 검증 샘플, 테스트 기반 검증 |
| LiveCodeBench | 오염 방지형 실시간 코딩 | 코드 벤치마크 오염 대응 | 새 문제 지속 수집, self-repair·실행 포함 |
| Humanity’s Last Exam | 최전선 학문 지식 | 프런티어 모델 한계 측정 | 2,500문항, 100개 이상 분야, 멀티모달 |
| FrontierMath | 극한 난도 수학 추론 | 기존 수학 벤치마크 포화 대응 | 미공개·초고난도·일부 미해결 문제 포함 |
| BrowseComp | 웹 탐색 에이전트 능력 | 검색·탐색 능력 평가 | 1,266개 hard-to-find 정보 문제 |
| GAIA | 일반 AI 비서 능력 | 도구 사용·멀티모달·추론 결합 | 웹브라우징과 도구 활용 포함 |
| RE-Bench | AI R&D 장기 과제 수행 | 장시간 자율 작업 평가 | ML 연구공학 과제를 인간 전문가와 비교 |
| ARC-AGI | 유동적 일반화와 적응 | 지식암기 아닌 새로운 문제 해결 | 정적 퍼즐에서 인터랙티브 환경으로 확장 |
MMLU-Pro: 지식형 평가의 난도 강화
MMLU-Pro는 기존 MMLU를 더 추론 중심으로 개편한 확장판입니다. 선택지를 10개로 늘리고, 더 까다롭고 노이즈가 적은 문항을 사용해 상위 모델을 더 잘 구분하려는 목적을 가집니다. 이 벤치마크는 “전통형 시험도 그냥 버리는 게 아니라 더 정교하게 손질해 쓸 수 있다”는 사례입니다.
MMMU: 멀티모달 이해의 본격 시험
MMMU는 대학 수준의 멀티모달 추론을 재기 위해 만들어졌습니다. 공식 설명에 따르면 11.5K개의 멀티모달 질문이 6개 핵심 학문 영역을 아우릅니다. 이제는 표, 그림, 다이어그램, 사진, 도표를 함께 읽는 능력이 텍스트 지식만큼 중요해졌기 때문에 MMMU의 비중이 커졌습니다.
GPQA: 과학 지식보다 과학 추론
GPQA는 생물·물리·화학 분야의 대학원급 전문가 문항으로 구성된 Google-proof 벤치마크입니다. 원 논문은 숙련된 비전문가가 웹검색을 써도 낮은 성과를 보였다고 설명합니다. 즉, 단순 암기보다 전문적 추론과 개념 연결 능력을 보려는 시험입니다.
에이전트 벤치마크가 왜 중요해졌나
2025~2026년 AI 평가에서 가장 큰 변화 중 하나는 “모델”에서 “에이전트”로 평가 단위가 옮겨간다는 점입니다. 이제는 답을 한 번 생성하는 능력보다, 도구를 쓰고 계획을 세우고 중간에 실패를 고치며 끝까지 과제를 마무리하는 능력이 중요해졌습니다.
SWE-bench Verified: 저장소 문맥 속에서 실제 이슈 해결
SWE-bench는 실제 GitHub 이슈를 해결하는 능력을 테스트합니다. 그중 Verified는 500개 인간 검증 샘플로 구성돼 더 신뢰도 높은 평가를 목표로 합니다. 단순 코드 생성이 아니라 실제 저장소 문맥, 테스트 통과, 패치 정확성까지 보기 때문에, 오늘날 코딩 에이전트 성능을 설명할 때 가장 자주 등장하는 벤치마크 중 하나가 됐습니다.
BrowseComp: 웹을 “읽는” 게 아니라 “찾아내는” 능력
OpenAI의 BrowseComp는 브라우징 에이전트가 인터넷에서 찾기 어려운 정보를 얼마나 잘 발견하는지 측정합니다. 벤치마크는 1,266개 문제로 구성되며, 단순한 검색어 입력이 아니라 집요한 탐색 전략이 필요한 과제를 중심으로 설계됐습니다. 이 평가는 앞으로 리서치형 AI 비서, 정보 탐색형 도우미의 핵심 능력을 재는 출발점으로 볼 수 있습니다.
GAIA: “일반 AI 비서”의 실력 측정
GAIA는 추론, 멀티모달 처리, 웹 브라우징, 도구 사용이 동시에 필요한 문제로 구성됩니다. 즉, 한 가지 기능만 잘하는 모델이 아니라, 실제 사용자 보조 환경에서 여러 능력을 묶어 잘 수행하는지 보는 시험입니다.
RE-Bench: 몇 시간짜리 연구공학 과제까지 보는 흐름
METR의 RE-Bench는 프런티어 AI 에이전트가 기계학습 연구공학 과제를 얼마나 자율적으로 수행할 수 있는지 인간 전문가와 비교하려는 벤치마크입니다. METR는 더 나아가 “AI가 완수할 수 있는 작업 길이”를 능력 척도로 보자는 제안도 내놨고, 이 작업 길이가 지난 수년간 약 7개월마다 두 배로 늘었다고 분석했습니다. 이는 단순 시험문항보다 장기 과제 완수 능력이 더 중요해지고 있음을 보여줍니다.
기존 모델 평가
질문 한 번, 답변 한 번, 정답률 중심. 짧고 정적인 능력 측정에 강했습니다.
에이전트 평가
도구 사용, 웹 탐색, 저장소 수정, 장기 계획, 오류 수정, 시간과 비용 효율까지 함께 봅니다.
라이브·오염 방지형 벤치마크의 부상
최근 벤치마크 고도화에서 매우 중요한 키워드는 “라이브”와 “오염 방지”입니다. 모델이 기존 공개 데이터셋을 이미 많이 접했을 가능성이 커지면서, 평가 자체를 계속 새롭게 유지하려는 시도가 늘고 있습니다.
LiveCodeBench: 코딩 평가를 계속 신선하게 유지
LiveCodeBench는 대회 플랫폼에서 시간에 따라 새 문제를 계속 수집해 코딩 능력을 평가합니다. 공식 설명은 이 벤치마크가 contamination-free 평가를 목표로 하며, 단순 코드 생성뿐 아니라 self-repair, 코드 실행, 테스트 출력 예측까지 본다고 밝힙니다. 이런 구조는 “모델이 이미 본 문제를 푸는가”와 “새 문제를 푸는가”를 더 잘 구분하게 해줍니다.
SWE-bench-Live와 LiveBench도 같은 흐름이다
SWE-bench-Live는 실제 이슈 해결 과제를 매월 갱신해 더 최신의 저장소 문제를 반영하려고 합니다. LiveBench 역시 오염을 줄이고 객관 평가를 강화하려는 목적을 내세웁니다. 이는 앞으로 벤치마크가 “정적인 시험지”에서 “계속 업데이트되는 테스트 인프라”로 변할 수 있음을 보여줍니다.
왜 이 흐름이 중요하나
AI 모델이 강해질수록 데이터 오염은 피하기 더 어려워집니다. 그래서 향후 신뢰도 높은 벤치마크는 단순 공개 데이터셋보다, 갱신 주기와 문제 생성 파이프라인, 평가 인프라 설계까지 포함해 논의될 가능성이 큽니다.
멀티모달·인터랙티브 평가의 확장
생성형 AI가 텍스트를 넘어 이미지, 도표, UI, 웹페이지, 영상, 상호작용 환경까지 다루기 시작하면서 벤치마크도 자연스럽게 멀티모달과 인터랙션 쪽으로 이동하고 있습니다.
MMMU: 대학 수준의 이미지+텍스트 복합 추론
MMMU는 단순 이미지 설명이 아니라, 대학 교재·시험·퀴즈 수준의 멀티모달 문제를 통해 전문 영역 이해를 측정합니다. 차트, 도식, 사진, 텍스트를 함께 읽고 판단해야 하므로 기존 텍스트 중심 벤치마크보다 현실적인 사용 사례에 더 가깝습니다.
Humanity’s Last Exam: 멀티모달 초난도 학문 시험
Humanity’s Last Exam은 2,500개의 전문가 제작 문항으로 구성되며, 100개 이상 학문 분야를 포괄합니다. AI Index 2025는 이 시험을 차세대 고난도 평가 사례 중 하나로 언급했고, 당시 최고 시스템 점수도 매우 낮다고 지적했습니다. 이는 상위 모델조차 최전선 학문 문제에선 아직 큰 한계가 있음을 보여줍니다.
ARC-AGI: 정적 퍼즐에서 인터랙티브 환경으로
ARC Prize 측 설명에 따르면 ARC-AGI 시리즈는 정적 퍼즐형 초기 버전에서, 이제는 ARC-AGI-3처럼 새로운 환경 안에서 적응하고 배우는 interactive reasoning 평가로 확장되고 있습니다. 이는 지식과 패턴 암기보다 “새로운 규칙을 현장에서 익히는 능력”을 더 직접적으로 보려는 시도입니다.
초고난도 수학·과학 평가의 의미
AI 벤치마크 고도화에서 또 하나의 뚜렷한 흐름은 “프런티어 수준 난도”입니다. 쉽게 말해, 대학 입시나 일반 프로그래밍 시험이 아니라 학문 최전선에 가까운 문제로 모델의 추론 한계를 보려는 움직임입니다.
FrontierMath: 기존 수학 벤치마크를 넘어서다
Epoch AI의 FrontierMath는 수백 개의 원래 공개되지 않았던 매우 어려운 수학 문제로 구성된 벤치마크입니다. 일부는 전문 수학자에게도 쉽지 않은 난도로 설계됐고, Open Problems 버전은 현직 수학자들도 풀지 못한 문제를 다룹니다. 이는 단순한 계산 능력이나 교과서형 풀이보다, 장기적이고 깊은 추론을 보려는 시도입니다.
GPQA와 HLE는 과학·지식 영역의 프런티어 시험
GPQA는 대학원급 과학, HLE는 더 넓은 학문 전반의 최전선 문제를 겨냥합니다. 이들은 공통적으로 “인터넷에 답이 있는지”보다 “정말 이해하고 추론하는지”를 보려고 설계됐습니다.
이런 벤치마크가 왜 필요한가
실제 산업에서 모든 사용자가 FrontierMath 수준의 문제를 던지는 것은 아닙니다. 하지만 이런 벤치마크는 모델이 어디까지 올라왔는지, 어디서 아직 벽을 만나는지 보여주는 상한선 지표로 중요합니다. 특히 과학 연구 보조, 수학 자동화, 고급 엔지니어링 조력 같은 미래 응용을 생각하면 의미가 큽니다.
기초형 수학 평가
정답률은 빠르게 높아지지만 상위권 변별력이 약해질 수 있습니다.
프런티어형 수학 평가
더 어려운 추론과 긴 사고 과정을 요구해 현재 한계를 더 잘 드러냅니다.
산업적 의미
연구 보조, 과학 discovery, 고난도 설계 문제 해결로 이어질 가능성을 가늠하게 해줍니다.
앞으로 AI 벤치마크는 어디로 가나
앞으로 글로벌 주요 AI 벤치마크 고도화는 몇 가지 방향으로 더 뚜렷해질 가능성이 큽니다.
1. 정답률보다 작업 완수율과 비용 효율이 중요해진다
ARC Prize 리더보드도 성능뿐 아니라 task당 비용 효율을 함께 강조합니다. 앞으로는 “풀었는가”만이 아니라 “얼마나 효율적으로 풀었는가”가 더 중요해질 수 있습니다.
2. 더 자주 갱신되는 라이브 평가가 늘어난다
데이터 오염 문제는 계속 커질 수밖에 없습니다. 그래서 LiveCodeBench, SWE-bench-Live 같은 형태가 더 많아지고, 벤치마크 운영 자체가 일회성 데이터셋 공개보다 지속적 서비스에 가까워질 가능성이 큽니다.
3. 에이전트 평가가 중심축이 된다
앞으로의 AI 제품은 채팅봇보다 일 처리형 도우미에 가까워질 가능성이 큽니다. 따라서 브라우징, 코딩, 연구, 문서 작업, 앱 조작 같은 실제 업무형 능력을 재는 평가가 더 중요해질 것입니다.
4. 인간 비교와 장기 과제가 더 중요해진다
RE-Bench처럼 인간 전문가와의 비교, METR의 “작업 길이” 관점, ARC-AGI의 적응 효율 등은 모두 같은 방향을 가리킵니다. AI를 더 이상 시험문제 푸는 엔진이 아니라, 시간이 걸리는 일을 맡길 수 있는 시스템으로 보기 시작했다는 뜻입니다.
- 기존 지식형 벤치마크는 기본체력 평가로 남을 가능성이 높습니다.
- 실전 코딩·웹 탐색·장기 과제 완수형 평가의 비중은 더 커질 가능성이 큽니다.
- 멀티모달과 인터랙티브 환경 평가가 본격 표준으로 자리 잡을 수 있습니다.
- 오염 방지와 라이브 업데이트는 신뢰도 높은 벤치마크의 핵심 조건이 될 수 있습니다.
- 벤치마크 하나가 아니라 “여러 평가의 포트폴리오”로 모델을 보게 될 가능성이 큽니다.
자주 묻는 질문
Q1. MMLU는 이제 의미가 없나요?
완전히 무의미한 것은 아닙니다. 다만 상위권 모델 변별력이 약해져 기본 체력 검사 정도로 보는 편이 더 적절합니다.
Q2. MMLU-Pro는 기존 MMLU와 무엇이 다른가요?
더 어려운 추론형 문항을 넣고 선택지를 10개로 늘려 우연한 정답 가능성을 줄인 강화 버전입니다.
Q3. SWE-bench가 왜 중요한가요?
실제 GitHub 이슈를 해결하는 능력을 보기 때문에, 단순 코드 생성보다 훨씬 현실적인 코딩 성능 평가로 여겨집니다.
Q4. LiveCodeBench는 왜 주목받나요?
새 코딩 문제를 계속 수집해 오염을 줄이고, self-repair와 실행까지 포함하는 더 현실적인 평가를 지향하기 때문입니다.
Q5. Humanity’s Last Exam은 어떤 시험인가요?
100개 이상 학문 분야의 2,500개 전문가 문항으로 구성된 초고난도 학문 벤치마크입니다.
Q6. ARC-AGI는 왜 특별한가요?
암기형 지식보다 새로운 문제에 적응하는 능력을 보려는 벤치마크이며, 최근에는 인터랙티브 환경까지 확장되고 있습니다.
Q7. 앞으로 가장 중요한 평가 방향은 무엇인가요?
에이전트형 장기 과제 수행, 라이브 업데이트, 멀티모달, 비용 효율, 오염 방지 평가가 핵심이 될 가능성이 큽니다.
결론
글로벌 주요 AI 벤치마크 고도화는 단순히 문제를 더 어렵게 내는 흐름이 아닙니다. 산업이 필요로 하는 능력이 바뀌고 있기 때문에, 평가 방식도 그에 맞게 재설계되는 과정에 가깝습니다. 이제 중요한 것은 더 많은 객관식 점수가 아니라, 실제 저장소를 고치고, 웹을 뒤지고, 그림과 문서를 함께 읽고, 몇 시간짜리 과제를 자율적으로 완수하며, 오염되지 않은 환경에서 새로운 문제를 푸는 능력입니다.
MMLU-Pro, MMMU, GPQA, SWE-bench Verified, LiveCodeBench, Humanity’s Last Exam, FrontierMath, BrowseComp, GAIA, RE-Bench, ARC-AGI는 각각 다른 방향에서 그 변화를 보여줍니다. 이들을 함께 보면 공통점이 보입니다. AI 평가는 “정답 맞히기”에서 “현실 세계에서 얼마나 믿고 맡길 수 있는가”로 이동하고 있다는 점입니다.
그래서 앞으로 모델 발표 자료를 볼 때는 점수 하나보다 질문을 바꾸는 것이 더 중요합니다. “이 모델은 몇 점인가?”가 아니라 “이 모델은 어떤 종류의 일을, 어떤 환경에서, 얼마나 안정적으로 할 수 있는가?” 이 질문이 바로 차세대 AI 벤치마크 시대의 핵심입니다.
참고자료 및 출처
- Stanford HAI - 2025 AI Index Report
- Stanford HAI - Technical Performance (Benchmark saturation and shift)
- TIGER AI Lab - MMLU-Pro
- MMMU Benchmark - Official Homepage
- GPQA - Official Repository
- SWE-bench - Official Leaderboards
- SWE-bench Verified
- OpenAI - Introducing SWE-bench Verified
- LiveCodeBench - Official Homepage
- LiveCodeBench - Official Repository
- Humanity’s Last Exam - Official Site
- Humanity’s Last Exam - Official Repository
- Epoch AI - FrontierMath
- Epoch AI - FrontierMath Open Problems
- OpenAI - BrowseComp
- Meta AI - GAIA
- METR - Measuring AI Ability to Complete Long Tasks
- METR - RE-Bench
- ARC Prize - ARC-AGI
- ARC Prize - ARC-AGI-3
- ARC Prize - Leaderboard
- LiveBench
- SWE-bench-Live
댓글
댓글 쓰기