今日のハイライト

最終更新: 2026-06-12
論文 深掘り Hugging Face 2026-06-09 HF ↑55

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

General-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker workspace, patch, and prediction contract required for scoring. We introduce Claw-SWE-...

#agent#benchmark#coding
論文 深掘り Hugging Face 2026-05-11 HF ↑12

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

Tool-using LLM agents fail through trajectories rather than only final responses, as they may execute unsafe tool calls, follow injected instructions, comply with harmful requests, or over-refuse benign tasks despite producing a seemingly safe answer. Existing safety-alignment signals are largely re...

#agent#alignment#llm
論文 深掘り Hugging Face 2026-04-26 HF ↑71

World-R1: テキストから動画生成における3D制約の強化学習による整合

「RLで3D整合動画生成」が自動運転・ロボ向け合成データ生成コストを大幅に下げるかもしれない

テキストから動画を生成する基盤モデル(video foundation model)は優れた映像合成能力を持つ一方、幾何学的不整合(geometric inconsistency)という課題を抱えている。既存手法はアーキテクチャ改修により3D事前知識(3D prior)を注入しようとするが、計算コストが高くスケーラビリティに限界がある。本研究ではWorld-R1を提案し、強化学習(reinforcement learning)を通じて動画生成と3D制約を整合させるフレームワークを構築した。世界シミュレーション向けの専用純テキストデータセットを新たに整備し、Flow-GRPOを用いて事前学習済み3D基盤モデルおよびビジョン言語モデル(VLM)からのフィードバックでアーキテクチャを変更せずに構造的整合性を強制する。さらに周期的分離学習戦略(periodic decoupled training strategy)で剛体的幾何整合性と動的シーンの流動性のバランスを取った。評価の結果、元モデルの視覚品質を維持しつつ3D一貫性を大幅に向上させ、動画生成とスケーラブルな世界シミュレーションの橋渡しに貢献するとしている。

#rl#alignment#benchmark
論文 深掘り Hugging Face 2026-06-10 HF ↑56

MiniMax Sparse Attention

Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over hundreds of thousands to millions of tokens, yet the quadratic cost of softmax attention makes this untena...

#multimodal#llm#agent#coding#benchmark
論文 深掘り Hugging Face 2026-06-10 HF ↑67

InterleaveThinker: Reinforcing Agentic Interleaved Generation

Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual nar...

#agent#benchmark#rl#multimodal#robotics
論文 深掘り Hugging Face 2026-06-10 HF ↑92

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

Large language model (LLM) agents have achieved strong performance on a wide range of benchmarks, yet most evaluations assume static environments. In contrast, real-world deployment is inherently dynamic, requiring agents to continually align their knowledge, skills, and behavior with changing envir...

#agent#benchmark#llm
論文 深掘り Hugging Face 2026-06-09 HF ↑55

Agentic Environment Engineering for Large Language Models: A Survey of Environment Modeling, Synthesis, Evaluation, and Application

Environments serve as interactive systems for large language model (LLM) based agents across diverse scenarios and play a crucial role in driving the continual evolution of model capabilities. Despite this importance, existing work lacks a systematic categorization and deep analysis. This paper syst...

#agent#benchmark#llm
論文 深掘り Hugging Face 2026-06-09 HF ↑73

Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution

Although Large Language Model (LLM) agents have demonstrated strong performance on complex tasks, their learning is often limited by inefficient interaction feedback and static training environments, which hinder broader generalization. To address these limitations, this paper introduces Role-Agent,...

#agent#llm#alignment#benchmark
論文 深掘り Hugging Face 2026-06-08 HF ↑165

Kwai Keye-VL-2.0 Technical Report

We introduce Kwai Keye-VL-2.0-30B-A3B, an open-source Mixture-of-Experts (MoE) multimodal foundation model designed to advance long-video understanding and agentic intelligence. To address the challenges of ultra-long contexts, information redundancy, and prohibitive computational costs inherent in ...

#multimodal#agent#alignment#benchmark
論文 深掘り Hugging Face 2026-06-07 HF ↑33

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

Conventional LLMs keep the full KV cache loaded during decoding, causing a severe GPU memory bottleneck for ultra-long context serving. In this report, we propose Lookahead Sparse Attention (LSA), a novel inference paradigm powered by a Neural Memory Indexer built upon the DeepSeek-V4 architecture. ...

#llm#coding#benchmark
論文 深掘り Hugging Face 2026-06-09 HF ↑55

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

General-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker workspace, patch, and prediction contract required for scoring. We introduce Claw-SWE-...

#agent#benchmark#coding
論文 深掘り Hugging Face 2026-05-11 HF ↑12

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

Tool-using LLM agents fail through trajectories rather than only final responses, as they may execute unsafe tool calls, follow injected instructions, comply with harmful requests, or over-refuse benign tasks despite producing a seemingly safe answer. Existing safety-alignment signals are largely re...

#agent#alignment#llm
論文 深掘り Hugging Face 2026-04-26 HF ↑71

World-R1: テキストから動画生成における3D制約の強化学習による整合

「RLで3D整合動画生成」が自動運転・ロボ向け合成データ生成コストを大幅に下げるかもしれない

テキストから動画を生成する基盤モデル(video foundation model)は優れた映像合成能力を持つ一方、幾何学的不整合(geometric inconsistency)という課題を抱えている。既存手法はアーキテクチャ改修により3D事前知識(3D prior)を注入しようとするが、計算コストが高くスケーラビリティに限界がある。本研究ではWorld-R1を提案し、強化学習(reinforcement learning)を通じて動画生成と3D制約を整合させるフレームワークを構築した。世界シミュレーション向けの専用純テキストデータセットを新たに整備し、Flow-GRPOを用いて事前学習済み3D基盤モデルおよびビジョン言語モデル(VLM)からのフィードバックでアーキテクチャを変更せずに構造的整合性を強制する。さらに周期的分離学習戦略(periodic decoupled training strategy)で剛体的幾何整合性と動的シーンの流動性のバランスを取った。評価の結果、元モデルの視覚品質を維持しつつ3D一貫性を大幅に向上させ、動画生成とスケーラブルな世界シミュレーションの橋渡しに貢献するとしている。

#rl#alignment#benchmark
論文 深掘り Hugging Face 2026-06-10 HF ↑56

MiniMax Sparse Attention

Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over hundreds of thousands to millions of tokens, yet the quadratic cost of softmax attention makes this untena...

#multimodal#llm#agent#coding#benchmark

モデル・リリース

すべて見る →
モデル OpenAI 2026-06-08

Introducing the OpenAI Economic Research Exchange

OpenAI launches the Economic Research Exchange to study AI’s impact on jobs, productivity, and the economy. Applications are now open for selected research projects....

モデル OpenAI 2026-05-29

Strengthening societal resilience with Rosalind Biodefense

OpenAI launches Rosalind Biodefense, expanding trusted access to GPT-Rosalind for vetted developers and U.S. government partners advancing biodefense, public health, and pandemic preparedness through frontier AI....

ツール・ライブラリ

すべて見る →
ツール 深掘り OpenAI 2026-04-27

ChocoはAIエージェントで食品流通を自動化する

食品流通のアナログ受発注がAIエージェントに置き換わる転換点が近づいている可能性がある

食品流通プラットフォームのChocoは、OpenAI APIを活用してサプライチェーン業務の効率化に取り組んだ事例を公開した。従来、食品流通業界では発注・受発注業務が電話・FAX・メール等のアナログ手段に依存しており、処理の遅延やヒューマンエラーが慢性的な課題とされていた。ChocoはOpenAIのAPIを中核としたAIエージェントを導入することで、こうした業務フローの自動化を実現し、業務生産性の向上と事業成長の加速を達成したと主張している。具体的な成果として、受発注処理のスリム化、担当者の生産性向上、そしてスケールアップ余地の拡大が挙げられている。本事例はAIを実業務に組み込んだリアルワールドインパクトの具体的な顧客事例(customer story)として紹介されており、食品流通という伝統的な産業におけるAI活用の可能性を示す事例と位置づけられる。

#agent
ツール OpenAI 2026-05-28

OpenAI’s Frontier Governance Framework

Explore OpenAI’s Frontier Governance Framework and how our AI safety, security, and risk practices align with emerging EU and California regulations....

#alignment
ツール OpenAI 2026-04-27

OpenAIがFedRAMP Moderate認可を取得——ChatGPT EnterpriseとAPIが米連邦政府機関で利用可能に

OpenAIは、ChatGPT EnterpriseおよびOpenAI APIがFedRAMP Moderate認可を取得したと発表した。FedRAMPは米連邦政府のクラウドサービス向けセキュリティ評価・認可プログラムであり、この認可取得により米国の連邦政府機関がOpenAIのサービスをセキュアな形で導入できる基盤が整ったとされる。ChatGPT Enterpriseはエンタープライズグレードのセキュリティとプライバシー管理を備えたサービスであり、APIと合わせて政府機関のAI活用ニーズに対応するとしている。この動きにより、連邦政府機関における生成AIの本格採用が加速するとともに、政府調達においてOpenAIの製品が正式な選択肢となることでAI業界全体にとっても重要なマイルストーンになると主張している。

企業動向

すべて見る →
企業動向 深掘り OpenAI 2026-06-11

BBVA puts AI at the core of banking with OpenAI

Learn how BBVA scaled ChatGPT Enterprise to 100,000 employees and partnered with OpenAI to accelerate AI-powered banking transformation worldwide....

企業動向 深掘り OpenAI 2026-05-07

Parloa builds service agents customers want to talk to

Parloa leverages OpenAI models to power scalable, voice-driven AI customer service agents, enabling enterprises to design, simulate, and deploy reliable, real-time interactions....

#agent#speech
企業動向 深掘り OpenAI 2026-04-28

OpenAIモデル・Codex・マネージドエージェントがAWSに登場

AWSとOpenAIの連携でマルチクラウドAI戦略が企業標準になりそう

AWSがOpenAIのGPTモデル群、コード生成特化モデルのCodex、およびマネージドエージェント機能を自社クラウド環境上で利用可能にしたと発表した。この統合により、企業はAWS環境内でセキュアなAIシステムを構築できるようになる。従来、OpenAIのモデルを利用するにはOpenAI APIやMicrosoft Azure OpenAI Serviceを経由する必要があったが、本発表によりAWSネイティブな形でOpenAIの主要モデルにアクセスできる選択肢が加わった。特にマネージドエージェント機能の提供は、企業がAWSのセキュリティ・コンプライアンス基盤(IAMやVPCなど)を活用しながらAIエージェントを運用できる点を強調しており、エンタープライズ利用における信頼性と運用管理の簡便化を主な訴求点としている。

#agent
企業動向 深掘り Microsoft Research 2026-05-11

SocialReasoning-Bench: Measuring whether AI agents act in users’ best interests

Using SocialReasoning Bench, we observed a stable pattern across models—agents execute competently, but fail to consistently improve the user’s position, even with explicit instructions to optimize for user interest. The post SocialReasoning-Bench: Measuring whether AI agents act in users’ best inte...

#agent