LLM 評価ジョブは、W&B Multi-tenant Cloud でプレビュー版として提供されています。プレビュー期間中は、コンピュートを無料で利用できます。詳細はこちら
- OpenAI Model Scorer 列が
trueのベンチマークでは、スコアリングにOpenAIのモデルを使用します。組織管理者またはチーム管理者は、OpenAI APIキーをチームシークレットとして追加する必要があります。この要件があるベンチマークで評価ジョブを設定する場合は、Scorer API key フィールドにそのシークレットを指定します。- Gated Hugging Face Dataset 列にリンクがあるベンチマークでは、アクセス制限付きのHugging Faceデータセットへのアクセスが必要です。組織管理者またはチーム管理者は、Hugging Faceでそのデータセットへのアクセスをリクエストし、Hugging Faceのユーザーアクセストークンを作成して、そのアクセストークンを使ったチームシークレットを設定する必要があります。この要件があるベンチマークを設定する場合は、Hugging Face Token フィールドにそのシークレットを指定します。
知識
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き Hugging Face データセット | 説明 |
|---|---|---|---|---|
| BoolQ | boolq | 自然言語の質問に基づく二択のはい/いいえ問題 | ||
| GPQA Diamond | gpqa_diamond | 大学院レベルの科学問題 (最高品質のサブセット) | ||
| HLE | hle | はい | 人間レベルの評価ベンチマーク | |
| Lingoly | lingoly | はい | 言語学オリンピックの問題 | |
| Lingoly Too | lingoly_too | はい | 拡張版の言語学チャレンジ問題 | |
| MMIU | mmiu | 大規模マルチタスク言語理解ベンチマーク | ||
| MMLU (0-shot) | mmlu_0_shot | 例示なしの大規模マルチタスク言語理解 | ||
| MMLU (5-shot) | mmlu_5_shot | 5 例付きの大規模マルチタスク言語理解 | ||
| MMLU-Pro | mmlu_pro | MMLU のより難しい版 | ||
| ONET M6 | onet_m6 | 職業知識ベンチマーク | ||
| PAWS | paws | 言い換えに対する敵対的な単語置換 | ||
| SevenLLM MCQ (English) | sevenllm_mcq_en | 英語の多肢選択式問題 | ||
| SevenLLM MCQ (Chinese) | sevenllm_mcq_zh | 中国語の多肢選択式問題 | ||
| SevenLLM QA (English) | sevenllm_qa_en | 英語の質問応答 | ||
| SevenLLM QA (Chinese) | sevenllm_qa_zh | 中国語の質問応答 | ||
| SimpleQA | simpleqa | はい | シンプルな事実ベースの質問応答 | |
| SimpleQA Verified | simpleqa_verified | 回答が検証された SimpleQA のサブセット | ||
| WorldSense | worldsense | 世界知識と常識の理解を評価 |
推論
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| AGIE AQUA-RAT | agie_aqua_rat | 解答根拠付きの代数的な質問応答 | ||
| AGIE LogiQA (English) | agie_logiqa_en | 英語の論理推論問題 | ||
| AGIE LSAT Analytical Reasoning | agie_lsat_ar | LSAT の分析的推論 (ロジックゲーム) 問題 | ||
| AGIE LSAT Logical Reasoning | agie_lsat_lr | LSAT の論理推論問題 | ||
| ARC Challenge | arc_challenge | 推論を要する難度の高い科学問題 (AI2 Reasoning Challenge) | ||
| ARC Easy | arc_easy | ARC データセットの比較的易しい科学問題セット | ||
| BBH | bbh | BIG-Bench Hard: BIG-Bench から抽出された難度の高いタスク | ||
| CoCoNot | coconot | 反事実的な常識推論ベンチマーク | ||
| CommonsenseQA | commonsense_qa | 常識推論問題 | ||
| HellaSwag | hellaswag | 常識に基づく自然言語推論 | ||
| MUSR | musr | 多段階推論ベンチマーク | ||
| PIQA | piqa | 物理常識推論 | ||
| WinoGrande | winogrande | 代名詞の照応解析による常識推論 |
数学
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| AGIE Math | agie_math | AGIE ベンチマークスイートにおける高度な数学的推論 | ||
| AGIE SAT Math | agie_sat_math | SAT の数学問題 | ||
| AIME 2024 | aime2024 | 2024 年の American Invitational Mathematics Examination の問題 | ||
| AIME 2025 | aime2025 | 2025 年の American Invitational Mathematics Examination の問題 | ||
| GSM8K | gsm8k | Grade School Math 8K: 複数 step の数学文章題 | ||
| InfiniteBench Math Calc | infinite_bench_math_calc | 長いコンテキスト内での数学計算 | ||
| InfiniteBench Math Find | infinite_bench_math_find | 長いコンテキスト内での数学的パターンの発見 | ||
| MATH | math | 競技レベルの数学問題 | ||
| MGSM | mgsm | 多言語の小学校レベルの数学 |
コード
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| BFCL | bfcl | Berkeley Function Calling Leaderboard: 関数呼び出しとツール使用の能力を評価 | ||
| InfiniteBench Code Debug | infinite_bench_code_debug | 長文コンテキストでのコードデバッグタスク | ||
| InfiniteBench Code Run | infinite_bench_code_run | 長文コンテキストでのコード実行結果予測 |
読解
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| AGIE LSAT Reading Comprehension | agie_lsat_rc | LSAT の読解パッセージと設問 | ||
| AGIE SAT English | agie_sat_en | パッセージ付きの SAT の読解・ライティング問題 | ||
| AGIE SAT English (No Passage) | agie_sat_en_without_passage | パッセージを伴わない SAT 英語問題 | ||
| DROP | drop | Discrete Reasoning Over Paragraphs: 数値推論を要する読解問題 | ||
| RACE-H | race_h | 英語試験由来の読解問題 (高難度) | ||
| SQuAD | squad | Stanford 質問応答データセット: Wikipedia 記事を対象とした抽出的質問応答 |
長文コンテキスト
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| InfiniteBench KV Retrieval | infinite_bench_kv_retrieval | 長文コンテキストにおけるキーと値の検索 | ||
| InfiniteBench LongBook (English) | infinite_bench_longbook_choice_eng | 長編書籍を対象とした多肢選択問題 | ||
| InfiniteBench LongDialogue QA (English) | infinite_bench_longdialogue_qa_eng | 長い対話に基づく質問応答 | ||
| InfiniteBench Number String | infinite_bench_number_string | 長いシーケンスにおける数値パターン認識 | ||
| InfiniteBench Passkey | infinite_bench_passkey | 長文コンテキストからの情報検索 | ||
| NIAH | niah | 干し草の山の中の針: 長文コンテキストにおける検索テスト |
安全性
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| AgentHarm | agentharm | はい | 有害なエージェントの振る舞いや悪用シナリオに対するモデルの耐性をテストします | |
| AgentHarm Benign | agentharm_benign | はい | 誤検知率を測定するための AgentHarm の無害なベースラインです | |
| Agentic Misalignment | agentic_misalignment | エージェント的な振る舞いにおける潜在的なミスアラインメントを評価します | ||
| AHB | ahb | Agent Harmful Behavior: 有害なエージェント的行動に対する耐性をテストします | ||
| AIRBench | air_bench | 敵対的な指示に対する耐性をテストします | ||
| BBEH | bbeh | 有害な振る舞いを評価するためのバイアスベンチマークです | ||
| BBEH Mini | bbeh_mini | BBEH ベンチマークの小規模版です | ||
| BBQ | bbq | 質問応答のためのバイアスベンチマークです | ||
| BOLD | bold | オープンエンドな言語生成データセットにおけるバイアス | ||
| CYSE3 Visual Prompt Injection | cyse3_visual_prompt_injection | 視覚的プロンプトインジェクション攻撃に対する耐性をテストします | ||
| Make Me Pay | make_me_pay | 金融詐欺や不正行為のシナリオに対する耐性をテストします | ||
| MASK | mask | はい | はい | 機微情報に対するモデルの処理をテストします |
| Personality BFI | personality_BFI | ビッグファイブ性格特性評価 | ||
| Personality TRAIT | personality_TRAIT | はい | 包括的な性格特性評価 | |
| SOSBench | sosbench | はい | 安全性と監督に関するストレステストです | |
| StereoSet | stereoset | 言語モデルにおけるステレオタイプ的なバイアスを測定します | ||
| StrongREJECT | strong_reject | 有害なリクエストを拒否するモデルの能力をテストします | ||
| Sycophancy | sycophancy | おもねるような振る舞いの傾向を評価します | ||
| TruthfulQA | truthfulqa | モデルの真実性と虚偽に対する耐性をテストします | ||
| UCCB | uccb | Unsafe Content Classification Benchmark | ||
| WMDP Bio | wmdp_bio | 生物学分野における危険な知識をテストします | ||
| WMDP Chem | wmdp_chem | 化学分野における危険な知識をテストします | ||
| WMDP Cyber | wmdp_cyber | サイバーセキュリティ分野における危険な知識をテストします | ||
| XSTest | xstest | はい | 過剰拒否を検出するための誇張的な安全性テストです |
専門分野別
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| ChemBench | chembench | 化学知識と問題解決のベンチマーク | ||
| HealthBench | healthbench | はい | ヘルスケアおよび医療知識の評価 | |
| HealthBench Consensus | healthbench_consensus | はい | 専門家のコンセンサスに基づくヘルスケア関連の質問 | |
| HealthBench Hard | healthbench_hard | はい | 難易度の高いヘルスケアシナリオ | |
| LabBench Cloning Scenarios | lab_bench_cloning_scenarios | 実験計画とクローニング | ||
| LabBench DBQA | lab_bench_dbqa | ラボシナリオ向けのデータベース質問応答 | ||
| LabBench FigQA | lab_bench_figqa | 科学的文脈における図の解釈 | ||
| LabBench LitQA | lab_bench_litqa | 研究向けの文献ベースの質問応答 | ||
| LabBench ProtocolQA | lab_bench_protocolqa | 実験プロトコルの理解 | ||
| LabBench SeqQA | lab_bench_seqqa | 生物学的配列解析に関する質問 | ||
| LabBench SuppQA | lab_bench_suppqa | 補足資料の解釈 | ||
| LabBench TableQA | lab_bench_tableqa | 科学論文における表の解釈 | ||
| MedQA | medqa | 医師免許試験の問題 | ||
| PubMedQA | pubmedqa | 研究論文の要旨に基づく生物医学の質問応答 | ||
| SEC-QA v1 | sec_qa_v1 | SEC提出書類の質問応答 | ||
| SEC-QA v1 (5-shot) | sec_qa_v1_5_shot | 5例を用いた SEC-QA | ||
| SEC-QA v2 | sec_qa_v2 | 更新版の SEC提出書類ベンチマーク | ||
| SEC-QA v2 (5-shot) | sec_qa_v2_5_shot | 5例を用いた SEC-QA v2 |
マルチモーダル
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| DocVQA | docvqa | 文書画像に関する質問応答 | ||
| MathVista | mathvista | 視覚的コンテキストと数学を組み合わせた数学的推論 | ||
| MMMU Multiple Choice | mmmu_multiple_choice | 多肢選択形式のマルチモーダル理解 | ||
| MMMU Open | mmmu_open | 自由回答形式のマルチモーダル理解 | ||
| V*Star Bench Attribute Recognition | vstar_bench_attribute_recognition | 視覚属性認識タスク | ||
| V*Star Bench Spatial Relationship | vstar_bench_spatial_relationship_reasoning | 視覚入力を用いた空間推論 |
指示追従
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| IFEval | ifeval | 指示に正確に従う能力をテストします |
システム
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| Pre-Flight | pre_flight | 基本的なシステムチェックと検証用テスト |
次のステップ
- モデル チェックポイントを評価する
- ホスト型 API モデルを評価する
- AISI Inspect Evals で特定のベンチマークの詳細を確認する