LLMジャッジの信頼性診断:共形予測集合と推移性違反
Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations
要約
自然言語生成(NLG)の自動評価において「LLM-as-judge」フレームワークが普及しているが、個別インスタンスレベルでの信頼性は十分に解明されていない。本研究はSummEvalデータセットに対し2つの診断ツールを提案する。第一に推移性(transitivity)分析で、集計レベルの違反率が低くても(0.8〜4.1%)、33〜67%のドキュメントで少なくとも1件の有向3サイクルが生じることを示し、個別入力レベルの非一貫性が隠蔽されていることを明らかにした。第二に1〜5のLikertスコアに対する分割共形予測集合(split conformal prediction sets)を構築し、理論的保証付きのカバレッジを実現した。予測集合の幅はインスタンス単位の信頼性指標として機能し(rs=+0.576, p<10^-100)、ジャッジ間でも一貫した相関(r=0.32〜0.38)を示す。4種のジャッジと4基準の比較から、ジャッジ選択より評価基準の種類が信頼性に強く影響し、関連性が最も信頼性高く、流暢性・一貫性は信頼性が低いと結論付けた。
筆者コメント
LLM-as-judgeの評価品質を問う研究はここ数年急増しているが、本論文が際立つのは「集計レベルの統計では問題が見えにくい」という点を定量的に示したことと言える。推移性違反の指標は従来から使われているが、集計値だけでは個別文書レベルの不整合が隠れるという洞察は実務的に重要と考えられる。共形予測(conformal prediction)をLLMジャッジの不確実性定量化に応用する発想は新しく、分布仮定不要で理論的カバレッジ保証が得られる点が魅力的だ。実務応用の観点では、日本語NLGの評価に展開する場合、SummEvalは英語データセットであり、日本語特有の表現多様性(敬語・文体差など)が評価基準ごとの信頼性に与える影響は別途検証が必要と見られる。また「流暢性・一貫性の信頼性が低い」という知見は、和文要約評価でも同様の傾向が現れる可能性があり注目に値する。コードや結果キャッシュが公開されている点は再現性の面で評価できるが、特定のLLMジャッジバージョンへの依存やAPIコストについては論文本文を確認していないため留意が必要だろう。
※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。