論文 Hugging Face 発表: 2026-04-15 HF ↑8

Switch-KD: ビジョン言語モデル向けビジュアルスイッチ知識蒸留

Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models

著者: Haoyi Sun, Xiaoxiao Wang, Ning Mao, Qian Wang, Lifu Mu ほか3名

要約

ビジョン言語モデル(Vision-Language Models、VLM)は資源制約環境への展開が課題である。知識蒸留(Knowledge Distillation、KD)によるモデル圧縮が有効だが、既存手法はモダリティ(modality)ごとに個別に教師信号を与えるため、マルチモーダル知識の一貫性が失われる問題がある。本論文はSwitch-KDを提案し、学生モデルの視覚出力を教師モデルの言語経路に切り替えることで、共有テキスト確率空間内でマルチモーダル知識を統一的に転送する。Dynamic Bi-directional Logits Difference損失により、情報量の多い確率領域を適応的に整列させながら、双方向教師信号で分布構造を保持する。0.5BのTinyLLaVAが3Bの教師から効果的に知識を蒸留し、10個のマルチモーダルベンチマークで平均3.6ポイントの改善を達成した。

#multimodal#alignment#benchmark

Switch-KD: ビジョン言語モデル向けビジュアルスイッチ知識蒸留

要約

同じカテゴリの記事

DR^{3}-Eval: 現実的で再現可能なディープリサーチエージェント評価ベンチマーク

RAD-2: 生成器-識別器フレームワークにおける強化学習のスケーリング

LongAct: 長文脈強化学習における内在的活性化パターンの活用