메인 콘텐츠로 건너뛰기
LLM Evaluation Jobs is in Preview for W&B Multi-tenant Cloud. Compute is free during the preview period. Learn more
이 페이지는 LLM Evaluation Jobs에서 카테고리별로 제공하는 평가 벤치마크 목록을 안내합니다. 특정 벤치마크를 실행하려면 팀 관리자가 필요한 API 키를 팀 범위 secret으로 추가해야 합니다. 모든 팀 멤버는 평가 job을 구성할 때 이 secret을 지정할 수 있습니다.
  • 벤치마크의 OpenAI Model Scorer 열에 true가 표시된 경우, 해당 벤치마크는 점수 산정을 위해 OpenAI 모델을 사용합니다. 조직 또는 팀 관리자는 OpenAI API 키를 팀 secret으로 추가해야 합니다. 이 요구 사항이 있는 벤치마크로 평가 job을 구성할 때는 Scorer API key 필드를 해당 secret으로 설정하세요.
  • 벤치마크의 Gated Hugging Face Dataset 열에 링크가 있는 경우, 해당 벤치마크는 액세스가 제한된(gated) Hugging Face 데이터셋에 대한 권한이 필요합니다. 조직 또는 팀 관리자는 Hugging Face에서 데이터셋에 대한 엑세스를 요청하고, Hugging Face 사용자 엑세스 토큰을 생성한 후, 엑세스 키를 포함한 팀 secret을 구성해야 합니다. 이 요구 사항이 있는 벤치마크를 구성할 때는 Hugging Face Token 필드를 해당 secret으로 설정하세요.

Knowledge

과학, 언어, 일반 상식 등 다양한 도메인에 걸친 사실적 지식을 평가합니다.
평가Task IDOpenAI Model ScorerGated Hugging Face 데이터셋설명
BoolQboolq자연어 쿼리 기반의 Boolean Yes/No 질문
GPQA Diamondgpqa_diamond대학원 수준의 과학 질문 (최고 품질 서브셋)
HLEhleYes인간 수준의 평가(Human-level evaluation) 벤치마크
LingolylingolyYes언어학 올림피아드 문제
Lingoly Toolingoly_tooYes확장된 언어학 챌린지 문제
MMIUmmiu대규모 멀티태스크 언어 이해 벤치마크
MMLU (0-shot)mmlu_0_shot예시가 없는 대규모 멀티태스크 언어 이해 평가
MMLU (5-shot)mmlu_5_shot5개의 예시가 포함된 대규모 멀티태스크 언어 이해 평가
MMLU-Prommlu_proMMLU의 더 어려운 버전
ONET M6onet_m6직업 지식 벤치마크
PAWSpaws문구 변형 적대적 단어 교체 (Paraphrase adversarial word substitution)
SevenLLM MCQ (영어)sevenllm_mcq_en영어로 된 객관식 질문
SevenLLM MCQ (중국어)sevenllm_mcq_zh중국어로 된 객관식 질문
SevenLLM QA (영어)sevenllm_qa_en영어 질의응답
SevenLLM QA (중국어)sevenllm_qa_zh중국어 질의응답
SimpleQAsimpleqaYes직설적인 사실 기반 질의응답
SimpleQA Verifiedsimpleqa_verified검증된 답변이 포함된 SimpleQA의 검증된 서브셋
WorldSenseworldsense세상에 대한 지식 및 상식 이해도 평가

Reasoning

논리적 사고, 문제 해결 및 상식 추론 능력을 평가합니다.
평가Task IDOpenAI ScorerGated HF 데이터셋설명
AGIE AQUA-RATagie_aqua_rat근거가 포함된 대수학 질의응답
AGIE LogiQA (영어)agie_logiqa_en영어로 된 논리 추론 질문
AGIE LSAT Analytical Reasoningagie_lsat_arLSAT 분석적 추론 (논리 게임) 문제
AGIE LSAT Logical Reasoningagie_lsat_lrLSAT 논리적 추론 질문
ARC Challengearc_challenge추론이 필요한 고난도 과학 질문 (AI2 Reasoning Challenge)
ARC Easyarc_easyARC 데이터셋 중 비교적 쉬운 과학 질문 세트
BBHbbhBIG-Bench Hard: BIG-Bench 중 도전적인 태스크들
CoCoNotcoconot반사실적(Counterfactual) 상식 추론 벤치마크
CommonsenseQAcommonsense_qa상식 추론 질문
HellaSwaghellaswag상식적인 자연어 추론
MUSRmusr다단계 추론 벤치마크
PIQApiqa물리적 상식 추론
WinoGrandewinogrande대명사 해소(Pronoun resolution)를 통한 상식 추론

Math

초등 수학부터 경시 수준 문제까지 다양한 난이도의 수학적 문제 해결 능력을 평가합니다.
평가Task IDOpenAI ScorerGated HF 데이터셋설명
AGIE Mathagie_mathAGIE 벤치마크 세트의 고급 수학적 추론
AGIE SAT Mathagie_sat_mathSAT 수학 문제
AIME 2024aime20242024년 미국 수학 초청 시험(AIME) 문제
AIME 2025aime20252025년 미국 수학 초청 시험(AIME) 문제
GSM8Kgsm8kGrade School Math 8K: 다단계 초등 수학 문장제 문제
InfiniteBench Math Calcinfinite_bench_math_calc긴 컨텍스트에서의 수학적 계산
InfiniteBench Math Findinfinite_bench_math_find긴 컨텍스트에서의 수학적 패턴 찾기
MATHmath경시 대회 수준의 수학 문제
MGSMmgsm다국어 초등 수학 (Multilingual Grade School Math)

Code

디버깅, 코드 실행 예측, 함수 호출(function calling) 등 프로그래밍 및 소프트웨어 개발 역량을 평가합니다.
평가Task IDOpenAI ScorerGated HF 데이터셋설명
BFCLbfclBerkeley Function Calling Leaderboard: 함수 호출 및 툴 사용 능력을 테스트
InfiniteBench Code Debuginfinite_bench_code_debug긴 컨텍스트 기반 코드 디버깅 태스크
InfiniteBench Code Runinfinite_bench_code_run긴 컨텍스트 기반 코드 실행 예측

Reading

복잡한 텍스트에서의 독해력 및 정보 추출 능력을 평가합니다.
평가Task IDOpenAI ScorerGated HF 데이터셋설명
AGIE LSAT Reading Comprehensionagie_lsat_rcLSAT 독해 지문 및 질문
AGIE SAT Englishagie_sat_en지문이 포함된 SAT 독해 및 작문 질문
AGIE SAT English (지문 없음)agie_sat_en_without_passage지문이 제공되지 않는 SAT 영어 질문
DROPdrop수치적 추론이 필요한 독해 평가 (Discrete Reasoning Over Paragraphs)
RACE-Hrace_h영어 시험 기반 독해 평가 (고난도)
SQuADsquadStanford Question Answering Dataset: 위키피디아 기사 기반의 추출적 질의응답

Long context

검색(retrieval) 및 패턴 인식을 포함하여 확장된 컨텍스트를 처리하고 추론하는 능력을 평가합니다.
평가Task IDOpenAI ScorerGated HF 데이터셋설명
InfiniteBench KV Retrievalinfinite_bench_kv_retrieval긴 컨텍스트에서의 Key-Value 검색
InfiniteBench LongBook (영어)infinite_bench_longbook_choice_eng긴 책 내용에 대한 객관식 질문
InfiniteBench LongDialogue QA (영어)infinite_bench_longdialogue_qa_eng긴 대화 내용에 대한 질의응답
InfiniteBench Number Stringinfinite_bench_number_string긴 시퀀스에서의 숫자 패턴 인식
InfiniteBench Passkeyinfinite_bench_passkey긴 컨텍스트로부터 정보 검색
NIAHniahNeedle in a Haystack: 긴 컨텍스트 검색 테스트

Safety

정렬(alignment), 바이어스 탐지, 유해 콘텐츠 거부 및 진실성을 평가합니다.
평가Task IDOpenAI ScorerGated HF 데이터셋설명
AgentHarmagentharmYes유해한 에이전트 행동 및 오용 시나리오에 대한 모델의 저항성 테스트
AgentHarm Benignagentharm_benignYes오탐지율을 측정하기 위한 AgentHarm의 양성(benign) 베이스라인
Agentic Misalignmentagentic_misalignment에이전트 행동의 잠재적 불일치(misalignment) 평가
AHBahbAgent Harmful Behavior: 유해한 에이전트 행동에 대한 저항성 테스트
AIRBenchair_bench적대적 지시(adversarial instruction) 저항성 테스트
BBEHbbeh유해 행동 평가를 위한 바이어스 벤치마크
BBEH Minibbeh_miniBBEH 벤치마크의 소형 버전
BBQbbq질의응답을 위한 바이어스 벤치마크 (Bias Benchmark for Question Answering)
BOLDbold개방형 언어 생성 데이터셋의 바이어스 평가
CYSE3 Visual Prompt Injectioncyse3_visual_prompt_injection시각적 프롬프트 인젝션 공격에 대한 저항성 테스트
Make Me Paymake_me_pay금융 사기 및 사기 시나리오에 대한 저항성 테스트
MASKmaskYesYes모델의 민감 정보 처리 능력 테스트
Personality BFIpersonality_BFIBig Five 성격 특성 평가
Personality TRAITpersonality_TRAITYes종합적인 성격 특성 평가
SOSBenchsosbenchYes안전 및 감독 스트레스 테스트
StereoSetstereoset언어 모델의 고정관념적 바이어스 측정
StrongREJECTstrong_reject유해한 요청을 거부하는 모델의 능력 테스트
Sycophancysycophancy아첨하는 행동(sycophantic behavior)에 대한 경향 평가
TruthfulQAtruthfulqa모델의 진실성 및 거짓에 대한 저항성 테스트
UCCBuccb안전하지 않은 콘텐츠 분류 벤치마크
WMDP Biowmdp_bio생물학 분야의 위험 지식 테스트
WMDP Chemwmdp_chem화학 분야의 위험 지식 테스트
WMDP Cyberwmdp_cyber사이버 보안 분야의 위험 지식 테스트
XSTestxstestYes과도한 거부 탐지를 위한 과장된 안전성 테스트

Domain-Specific

의학, 화학, 법률, 생물학 및 기타 전문 분야의 특화된 지식을 평가합니다.
평가Task IDOpenAI ScorerGated HF 데이터셋설명
ChemBenchchembench화학 지식 및 문제 해결 벤치마크
HealthBenchhealthbenchYes헬스케어 및 의학 지식 평가
HealthBench Consensushealthbench_consensusYes전문가 합의가 포함된 헬스케어 질문
HealthBench Hardhealthbench_hardYes도전적인 헬스케어 시나리오
LabBench Cloning Scenarioslab_bench_cloning_scenarios실험실 실험 계획 및 클로닝
LabBench DBQAlab_bench_dbqa실험실 시나리오에 대한 데이터베이스 질의응답
LabBench FigQAlab_bench_figqa과학적 컨텍스트에서의 도표 해석
LabBench LitQAlab_bench_litqa연구를 위한 문헌 기반 질의응답
LabBench ProtocolQAlab_bench_protocolqa실험실 프로토콜 이해
LabBench SeqQAlab_bench_seqqa생물학적 시퀀스 분석 질문
LabBench SuppQAlab_bench_suppqa보충 자료 해석
LabBench TableQAlab_bench_tableqa과학 논문의 표 해석
MedQAmedqa의사 면허 시험 질문
PubMedQApubmedqa연구 초록 기반의 생의학 질의응답
SEC-QA v1sec_qa_v1SEC 공시 서류 질의응답
SEC-QA v1 (5-shot)sec_qa_v1_5_shot5개의 예시가 포함된 SEC-QA
SEC-QA v2sec_qa_v2업데이트된 SEC 공시 서류 벤치마크
SEC-QA v2 (5-shot)sec_qa_v2_5_shot5개의 예시가 포함된 SEC-QA v2

Multimodal

시각적 입력과 텍스트 입력을 결합하여 비전 및 언어 이해 능력을 평가합니다.
평가Task IDOpenAI ScorerGated HF 데이터셋설명
DocVQAdocvqaDocument Visual Question Answering: 문서 이미지에 대한 질문
MathVistamathvista시각적 컨텍스트를 결합한 수학적 추론
MMMU Multiple Choicemmmu_multiple_choice객관식 형식의 멀티모달 이해
MMMU Openmmmu_open개방형 응답 형식의 멀티모달 이해
V*Star Bench Attribute Recognitionvstar_bench_attribute_recognition시각적 속성 인식 태스크
V*Star Bench Spatial Relationshipvstar_bench_spatial_relationship_reasoning시각적 입력을 통한 공간 추론

Instruction Following

특정 지침 및 형식 요구 사항에 대한 준수 여부를 평가합니다.
평가Task IDOpenAI ScorerGated HF 데이터셋설명
IFEvalifeval정밀한 지시 준수 능력을 테스트

System

기본 시스템 검증 및 사전 점검입니다.
평가Task IDOpenAI ScorerGated HF 데이터셋설명
Pre-Flightpre_flight기본 시스템 체크 및 유효성 검사 테스트

다음 단계