LLM(大規模言語モデル)エージェント白書2025版
■概要■
エージェントとは、その本質において、環境を認識し、情報を処理し、意思決定を行い、特定の目標を達成するための行動を取るシステムである。従来、ルールベースシステム、エキスパートシステム、強化学習を搭載したエージェントは、産業オートメーション、ゲームI、ロボット工学、カスタマーサービスなど、明確なルールが定義されたさまざまな環境において優れた能力を発揮してきた。
しかし、大規模言語モデル(LLM)の統合によりエージェントはさらに進歩を遂げ、新たな可能性が大きく広がっている。これにより、自然言語の処理能力、複雑な指示の解釈能力、より人間らしいやりとりを行う能力が強化され、エージェントの機能が拡大した。LLMを活用することで、最新のエージェントはより柔軟かつ多用途となり、自然言語やマルチモーダルなデータをインターフェースとした効果的な操作が可能となりつつある。
LLMベースのエージェントは、LLMを利用して環境を認識し、意思決定を行い、行動を実行して、特定のタスクの達成を代行したり、支援する。LLMはエージェントの頭脳に相当し、推論と意思決定のエンジンとして機能する。LLMは入力内容を解釈し、トレーニング中に学習したパターンに基づいて意思決定をサポートし、実行すべきアクションを決定し、人間のような応答を生成する。
LLMエージェントは、その強力な言語スキルを活かして、コンテンツ開発、カスタマーサービス、医療診断改善、研究アイデアの生成などさまざまな分野で活用されている。また、プランニングはLLMベースのエージェントの最も重要な応用の一つと考えられており、ロボットプランニング、ビジネススケジューリング、コード生成などの様々なシナリオに適用できる。
こうしたLLMの大きな成功は、LLMを補強した自律エージェント(LAA)の新たな探求を後押ししている。LLMを自律型エージェントの構築における中核的なオーケストレーターとして活用する動きが急増している。LLMがチャットボットからアプリケーションやさまざまなサービスに深く組み込まれ、自身や他のエージェント間で自律的に動作することは、エキサイティングな産業・ビジネス・社会のモデルを提示するものとなるだろう。
企業は、ビジネスの文脈に基づいて実用的な結果を生み出すLLMエージェントのシステムが必要とされている。個別のコンテンツや文書を扱うという次元を超えて、今後は、全体的な生産性を向上させ、既存のインフラに技術的な進歩をもたらすことができるLLMエージェント・システムを必要としている。
本白書は、LLM(大規模言語モデル)エージェントの現状、今後の方向性、さまざまな目標を実現するうえで必須となる要件について集積した、LLMIエージェントに関する総覧型レポート集である。
序
<1>LLMエージェント 概説
・はじめに
・組織にとってのLLMエージェントの主な利点
・エージェントとしてのLLM
・LLMから対話エージェントへ
・LLM採用でより強力な自律性を獲得したAIエージェント
・LLMエンジンに基づく生成AIエージェントの実現
<2>LLMエージェントの適用・応用分野
・概説
・エンジニアリング/IT
-要求工学/文書化
-ソフトウェア工学
-ソフトウェア開発/コーディング
-コード生成/ソフトウェア開発におけるタスク最適化
-データサイエンス/データ分析
-産業オートメーション
-人工知能
-ロボット工学
-土木・建設工学
-航空・宇宙工学
・ビジネス/マネジメント
-概要
-各種プランニング/スケジューリング
-反復プロセスの自動化(プロジェクト管理/進捗管理、リソース管理など)
-マーケティング
-サプライチェーンマネジメント
-ビジネスインテリジェンス(BI)
-カスタマーサービス/カスタマーサポート
-顧客関係管理(CRM)システム
-品質管理/プル・リクエスト管理
-人事・採用
-訓練/研修/能力開発
-法務調査/コンプライアンス管理/契約管理
-研究開発
・社会科学
-概要
-政治
-法律
-社会
・経済・金融・財務
-金融
-財務分析/財務報告
-不正行為の検知と防止
-暗号通貨
・自然科学
-概要
-人工ニューラルネットワーク(ANN)
-自然科学実験
-自然科学教育
・人文科学
-心理
・サービス
-旅行代理店
-機械翻訳/自動翻訳
・その他分野
-多様な工学領域
-大規模言語モデルによる環境とタスクの生成
-ツール開発のためのLLMエージェント
・関連ツール
-Microsoft AI「TinyTroupe:LLMベース・マルチエージェント・シミュレーション」 Simulation
・関連研究
-AI4Finance財団他研究チーム「フィンロボット大規模言語モデルを用いた金融アプリケーションのためのオープンソースAIエージェントプラットフォーム」
-ワシントン大学他研究チーム「臭気プルームを追跡する人工エージェントにおける創発的行動と神経ダイナミクス」
-Weco AI「人間レベルのデータサイエンス課題を自動解決するAIエージェント」
-LangchainとFastAPIで構築されたAIフィンテック・プロジェクト「LangChain Financial Agent」
-KAIST/Microsoft Research/DeepAuto.ai「リサーチエージェントAIを活用したアイデア創出と反復的改良による科学研究¥
-MIT CSAIL/CMU LTI/UMass Amherst/MIT-IBM Watson AI Lab「科学的生成エージェント:分野横断的な科学的発見のための統一された機械学習フレームワーク」
-イリノイ大学アーバナ・シャンペーン校「AGENTLESS」
-カリフォルニア大学バークレー校「マルチモーダルな世界モデルを学習し、将来のテキストや画像表現を予測するAIエージェント」
<3>LLMベースのエージェントの仕組み・構成
・概説
・LLMエージェントのアーキテクチャ
-概要
-3種類の基本モデル・アーキテクチャ
-LLMエージェントとその基本手法
・思考の連鎖(Chain-of-Thought)
・トランスフォーマーと文脈学習
・シングル・エージェントとマルチ・エージェント
-LLMベースのシングルエージェントシステム
-LLMベースのマルチエージェントシステム
-マルチエージェントフレームワークと既存のアプローチの限界
・ワールドモデル(環境の生成モデル)
・オープンワールド/マインクラフトエージェント
・拡散モデル
・生成的視覚モデル/VLMエージェント
・学習戦略
・行動クローニング(BC)
・LLMエージェントの推論能力
・LLMエージェントと意思決定
・RAGメカニズムに依存するLLMエージェント
・拡張言語エージェントのアーキテクチャ
・自己反省
・対話エージェントとロールプレイの概念
・シミュラクラとシミュレーション
・ゴール指向の言語エージェントとしてのLLM
・言語エージェントと環境との相互作用
・階層化されたエージェントによる自己コラボレーションと自己修正メカニズム
・ウェブエージェント
・ツールエージェント
・LLMエージェント構築ライブラリ
-軽量コード・アーキテクチャ
-タスク指向の設計
-階層的マルチエージェント・オーケストレーション
-多彩な実施可能性
・LLMベースのエージェントの関数呼び出し
・関連研究
-エディンバラ大学/ジュネーブ大学/マイクロソフトリサーチ「ワールドモデリングのための拡散」
-浙江大学/シンガポール国立大学/アリババ・グループ「世界知識モデルによるエージェント計画」
-Team CraftJarvis 「JARVIS-1: マルチモーダル言語モデルによるオープンワールドマルチタスクエージェント」
-復旦NLPラボ「AGENTGYM: 多様な環境における大規模言語モデルベースのエージェントの進化」
-マイクロソフト「TaskWeaver:コードファーストのエージェントフレームワーク」
-セールスフォース・リサーチ「エージェントを強化するための道徳的フレームワーク:Retroforme」
-北京大学/UCLA/北京郵電大学/北京一般人工知能研究所研究チー「記憶増強マルチモーダル言語モデルを備えたオープンワールド・マルチタスク・エージェント」
-MineLand:マルチエージェントシミュレーションと実世界の複雑性のギャップを埋めるマルチエージェントマインクラフトシミュレータ
<4>LLMに基づくエージェントの開発
・概説
・LLMエージェントにおけるプロトタイプからプロダクション・グレードのシステムまでの道のり
・LLMペルソナ・エージェント
・研究チーム、参入企業動向
-ペルソナジム「LLMペルソナ・エージェントを包括的に評価する動的AIフレームワーク」
・LLMベースのエージェント開発
・エージェントベースのソフトウェア開発フレームワーク
・関連研究
-復旦NLPラボ&復旦視覚学習ラボ「AGENTGYM: 多様な環境における大規模言語モデルベースのエージェントの進化」
<5>LLMエージェント開発プラットフォーム・開発フレームワーク
・概説
・LLMプロジェクト開発に必要な新たな概念とは
・モジュールの開発
-プロファイリングモジュール
-メモリモジュール
-プランニング・モジュール
・タスクの開発
・LLM駆動型エージェントシステム開発
-ChatDev
・事例[1]
-Salesforce「LLMエージェントを構築するための軽量フレームワーク:AgentLite」
-Salesforce「BOLAA戦略」
-Salesforce AI Research「AgentLite」
-Microsoft Research 「AutoGen Studio」
-Microsoft Research 「AgentInstruct」
-Microsoft/Lehigh University「Sora」
-Microsoft「Data Formulator」
-Codestory「Aide」
-Meta AI「Habitat 2.0」
-Meta AI「Habitat 3.0、Habitat Synthetic Scenes Dataset、HomeRobot」
-Meta AI 「Researchers Pearl」
-Google Cloud「Vertex AI Agent Builder」
-Google DeepMind「SIMA」
-AWS「Multi-Agent Orchestrator」
-AgentStudio
・事例[2]
-Weco AI「AIDE」
-Llama-Agents
-Databricks「Mosaic」
-OpenDevin:人間の開発者と同様のやりとりを行う強力なAIエージェントの開発を可能にする人工知能プラットフォーム
-Composion
-Nous
-SelfGoal
-Sibyl
-Pythonフレームワーク(自律言語エージェントのためのオープンソースフレームワーク)
-Stanford Universit「KITA」
-復旦NLPラボと復旦視覚学習ラボ「AGENTGYM」
-CAMEL-AI
-KwaiAgents
-アリババAIグループ「AgentScope」
-LUMOS
-Maestro
・関連研究
-NTU(シンガポール)/Skywork AI(シンガポール)/ETH(チューリッヒ)「AgentStudio:一般的なバーチャルエージェントを構築するためのツールキット」
-清華大学/北京大学/北京郵電大学/テンセント建築「Internet of Agents(IoA)フレームワーク」
-ノースウェスタン大学/清華大学/香港中文大「RAFA:自律的LLMエージェントのための原理的人工知能フレームワーク
-NVIDIA/マイクロソフト/カーネギーメロン大学/ボストン大学「自然言語を使ってAIエージェントを構築するための機械学習フレームワーク」
<6>LLMエージェントシステムの構築
・概説
・LangChainを使ったReAct(Reasoning and Acting)によるLLMエージェントの構築
・CrewAI(オープンソースフレームワーク)を使ったLLMエージェントの構築
・LangGraphによるLLMエージェントシステムの構築
・LaVague
・研究チーム、参入企業動向
-LLMベースのエージェントを効率的に構築できる軽量なオープンソースPythonフレームワーク
・ユースケース/活用事例
-デロイトトーマツ
-マイクロソフト
-セゾンテクノロジー
<7>LLMエージェントのトレーニング
・概説
・LLMベースのエージェント能力を強化するアプローチ
<8>LLMエージェントの性能評価・ベンチマーク
・概説
・LLM単独の評価とLLMエージェントの評価の違い
・自然言語によるエージェント制御のベンチマーク
・LLMエージェントのコスト評価
・LLMエージェントの性能を向上させるための試み
-概要
-模倣学習
-LLMポリシーの学習
・企業の業務タスクにおけるLLMエージェントの能力評価方法
・LLMエージェントを開発・評価するためのシミュレーション環境
・マルチモーダルLLMエージェントのベンチマーク
・LLMエージェントの安全とセキュリティのベンチマーク
・LLMエージェントのベンチマークに関する最新の研究動向
・事例
-アップル「LLMエージェント評価に特化したベンチマーク:MMAU」
-Sierra「ユーザーとツールの動的なインタラクションを伴う実世界におけるAIエージェントの性能と信頼性を評価する新しいベンチマーク:τ-bench」
・関連研究
-プリンストン大学研究チーム「AIエージェント評価の重要性」
-プリンストン大学「LLMエージェントの評価」
-アレンAI研究所/UCLA /オハイオ州立大/UIUC「LLMエージェントの探索に基づく軌道最適化」
-復旦大学/オハイオ州立大学/ペンシルバニア州立大学/Meta AI「言語エージェントの計画能力を多面的に評価する包括的なAIベンチマーク」
-カーネギーメロン大学「マルチモーダルWebエージェントのパフォーマンス評価用に設計されたAIベンチマーク」
-カーネギーメロン大学/Writer.com「OmniACT :コンピュータ・タスクを達成するための実行可能プログラムを生成するエージェントの能力を評価するためのデータセットとベンチマーク」
-OpenAI「MLE-bench:機械学習エンジニアリングにおけるAIエージェントのパフォーマンスを測定する新しいベンチマーク」
-Salesforce AI Research「業務環境に基づく現実的なタスクでAIエージェントを評価するAIベンチマーク:CRMArena」
-OpenAI「mle-bench: 機械学習工学における機械学習エージェントの評価」
<9>LLMエージェントの性能向上策
・概説
-概要
-模倣学習
-LLMポリシーの学習
・関連研究
-アレンAI研究所他研究チーム「LLMエージェントの探索に基づく軌道最適化」
<10>LLMエージェントのツール
・概説
・LLMエージェントのツールに関する最新の研究動向
<11>LLMエージェントに関する最新の研究動向
・概況・近況
・指示の理解、推論、問題解決に関する研究
・複雑なタスクを実行するエージェント
・創発的なLLMベースのエージェント
・データサイエンスのためのLLMエージェント
・LLMエージェントを活用したビジネスインテリジェンスの統合プラットフォーム
・組み込み型LLMエージェント
・スマートフォン操作に最適化して設計されたLLMベースのマルチモーダルエージェントフレームワーク
・LLMを用いた環境ダイナミクスの予測と意思決定の探索への適用
・関連研究
-復旦大学/アレンAI研究所「セルフゴール: 言語エージェントは、ハイレベルな目標を達成する方法をすでに知っている」
<12>自律型LLMエージェントに関する今後の有望な方向性
・概説
・ヒューマンアライメントトの向上
・知識の境界の拡張
・効率性の向上
・迅速なロバスト性の向上
・ロールプレイング能力の向上
・幻覚対処能力の拡張
・多段階推論LLMエージェント
・関連研究
-Google Research/Google DeepMind/Google tCore「restとreactの出会い:多段階推論llmエージェントの自己改善
<13>LLMエージェントの課題・対策
・概説
・LLMエージェントが抱える課題と取り組む研究開発動向
・適切なスケジューリングとリソース管理のメカニズム不在
・LLMエージェントの信頼性
・長いコンテキストサイズの効率的な管理
・「取り消し」と「ダメージの閉じ込め」という概念による意図しない結果のリスク軽減
・LLMを一般的な実世界のエージェントタスクに適用するうえでの課題と解決方法
・関連研究
-カーネギーメロン大学/NVIDIA/マイクロソフト/ボストン大学「グラフを使ったフローエンジニアリング」
<14>企業のWebサイトから特定の情報を抽出するエンタープライズ・エージェントの構築
・概説
・LangGraphとFirecrawlを使用したエンタープライズ・エージェントの構築
<15>LLMエージェントの効果的な微調整
・概説
・エージェントとしてのLLM
・言語モデルの微調整
・先行研究
・関連研究
<16>特定の高難易度タスクにおけるLLMエージェントの適用
・概説
・プロセスコード全体の生成と解決の同時処理
・高レベルの問題解決アプローチをLLM自身に考えさせるエージェント化手法
・事前知識なしにタブラ・ラサ学習する強化学習(RL)エージェント
・思考連鎖(CoT)プロンプティング
・研究開発動向
-カリフォルニア大学バークレー校「Goex:自律的なLLMアプリケーションのためのランタイムに向けた展望とデザイン」
-コルビー・ノッティンガム「言語ガイド付き世界モデリングを用いた身体化された意思決定」
-清華大学/香港大学/中国人民大学/ModelBest」エージェントのタスク間自己進化を促進するAI戦略」
<17>タスク指向対話型(TOD)LLMエージェント
・概説
・関連研究
-スタンフォード大学「プログラム可能なポリシーを持つLLMベースのオープンドメイン統合タスク・知識アシスタント」
<18>LLMエージェントによる交渉・相互作用
・LLMタスク同士の交渉
・関連研究
-スタンフォード大学「LLMはどの程度交渉できるか?NEGOTIATIONARENAプラットフォームと分析」
-スタンフォード大学「LLMエージェントの交渉能力を評価・調査する柔軟なAIフレームワーク」
<19>LLMマルチエージェント
・マルチエージェントLLMアプリケーションのパラダイム
・複数のLLMエージェントのコラボレーション
・マルチエージェント強化学習(MARL)
・LLMマルチエージェント・システムの研究動向
・LLMベースのエージェント間の協力
・LLM同士の交渉
・マルチLLMエージェントの研究動向
・関連研究
-エディンバラ大学/アレンAI研究所「セルフプレイとAIフィードバックからの文脈内学習による言語モデル交渉の改善」
-清華大学/北京郵電大学「optima:llmベースのマルチエージェントシステムの有効性と効率性の最適化」
-清華大学/北京大学/北京郵電大学/テンセント研究チーム「エージェントのインターネット協調的インテリジェンスのための異種エージェント網の構築」
<20>LLMマルチエージェントシミュレーション
・概説
・LLMエージェントを使ったシミュレーションの実験環境
<21>マルチモーダルLLMエージェント
・概説
・テキストから画像を生成するLLMエージェントに関する機構研究
・マルチモーダルLLMを使ったプランニングとコントロール
・モバイル端末用マルチモーダルLLMエージェント
・GPT-4Vの視覚機能の統合
・関連研究
-KAUST/東京大学/CMU/Stanford大/ハーバード大/清華大/サステック大/ノースウェスタン大/オックスフォード大研究チーム「crab:マルチモーダル言語モデルエージェントのためのクロス環境エージェントベンチマーク」
-清華大学/ノアの方舟ラボ/ファーウェイ研究チーム「分割統治の原理に基づくテキストから画像への合成生成のための訓練不要のアプローチ」
-北京交通大学/アリババ・グループ「モバイルエージェント:視覚認識を持つ自律型マルチモーダルモバイルデバイスエージェント」
-清華大学/香港大学/Noahs Ark Lab「LLMエージェントを中核とした、合成テキスト画像生成のための訓練不要のAIアプローチ」
-テンセント「AppAgent:スマートフォンユーザーとしてのマルチモーダル・エージェント」
<22>LLMロボット・エージェント
・概説
・学習済みロボット・エージェント
-概要
-意思決定のためのトランスフォーマ
-視覚的事前トレーニングとロボット・エージェント
-ゴール条件付きロボット・エージェント
-汎用ロボット・エージェント
・ロボット工学におけるロングホライズンタスクを解決するための有望なツール
・ロングホライズンタスクを解決するためのエージェントとして言語モデル
・LLMエージェントによる自律走行車のプランニング、ソリューション
・ロボットのインタラクションの動的記憶保持、行動と結果を文脈内として取り出すことを可能にするフレームワーク
・ロボットによるデータの自動収集、模倣学習、データ生成
・関連研究
-NVIDIA/テキサス大学オースティン校「人間の実演を用いたスケーラブルなロボット学習のためのデータ生成システム」
-「RAG-Modulo:経験、批評家、言語モデルを用いて逐次課題の解法」
-Google DeepMind「ロボキャット:ロボット操作のための自己改善型ジェネラリスト・エージェント」
-NVIDIA/テキサス大学オースティン校「人間の実演を用いたスケーラブルなロボット学習のためのデータ生成システム」
<23>リアルタイムLLMエージェント
・概説
・非同期コンピュータ・システムとAIエージェント
・リアルタイム・システムとAIエージェント
・自律型AIエージェントへの拡張
・マルチ・エージェント・システムへの拡張
・バーチャルアシスタント、アクセシビリティツールへの拡張
<24>LLM-as-Agent(エージェントとしてのLLM)
・概説
・LLMエージェントの評価
・LLM-as-Agent
・エグゼクティブ環境でLLMを評価する
・レコメンデーションシステム(RS)としてのLLMエージェント
・推薦システムとしてのLLMエージェント
・関連研究
-清華大学/オハイオ州立大学/カリフォルニア大学バークレー校「LLMをエージェントとして評価するエージェントベンチ」
-アリゾナ州立大学計算・拡張知能学部/Amazon Alexa AI「RecMind:推薦のための大規模言語モデル搭載エージェント」
<25>LLMエージェントによるソフトウェア開発/ノーコードLLMマルチエージェント制御
・概説
・コード生成・修正を自動化するLLMエージェント
・事例
-マイクロソフト ノーコードLLMマルチエージェント制御「AUTOGEN STUDIO」
<26>堅牢(ロバスト)なLLMエージェントの開発
・概説
・レッドチームLLMエージェント
<27>LLMの計画・レフレクション能力を利用したLLMエージェント
・概説
-ロングコンテクストのLLMエージェント
-検索拡張生成(RAG)
-検索のためのエージェント
・関連研究
-アリババ・グループ/香港中文大学/上海AI研究所 /マンチェスター大学「GraphReader:大規模言語モデルのロングコンテクスト能力を強化するためのグラフベース・エージェントの構築」
<28>構造的因果モデル(SCM)に基づくLLMベースのエージェント構築
・概説
・関連研究
-ハーバード大学「自動化された社会科学:科学者としての言語モデルと被験者*としての言語モデル」
-INSA Lyon/UCBL/Meta AI/Naver Labs Europe「AutoNeRF:自律エージェントによる暗黙的なシーン表現の学習」
<29>主なLLMエージェント
・ChemCrow
・ToolLLM
・OS-Copilot
他