論文 Hugging Face 発表: 2026-04-15 HF ↑21

DR^{3}-Eval: 現実的で再現可能なディープリサーチエージェント評価ベンチマーク

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

著者: Qianqian Xie, Qingheng Xiong, He Zhu, Tiantian Xia, Xueming Han ほか14名

要約

複雑な長期的リサーチタスクを解く深層研究エージェント(DRA)の評価は、動的なウェブ環境と曖昧なタスク定義により困難である。本論文は、マルチモーダル・マルチファイルレポート生成タスクの現実的で再現可能な評価ベンチマークDR^{3}-Evalを提案する。ベンチマークは実際のユーザー提供資料から構築され、オープンウェブの複雑性をシミュレートしつつ完全に検証可能な静的リサーチサンドボックスを含む。情報リコール(Information Recall)、事実精度(Factual Accuracy)、引用カバレッジ(Citation Coverage)、指示従循性、深さの質を測定する多次元評価フレームワークを導入し、人間判定との整合性を検証している。複数の最先端言語モデルに基づくDR^{3}-Agentの実験から、本ベンチマークが極めて困難であり、検索堅牢性と幻覚制御における重大な障害モードを明らかにすることを示した。

#agent#multimodal#alignment#benchmark

DR^{3}-Eval: 現実的で再現可能なディープリサーチエージェント評価ベンチマーク

要約

同じカテゴリの記事

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合