2025年の生成AI進化の歴史

2025年は生成系人工知能(Generative AI)が実用段階へと深化し、より幅広い領域で社会実装が進んだ年でした。

1月

  • 「Gemini 2.0 Flash」を公開
    1月10日、GoogleはGemini 1.5 Proの2倍の処理速度を誇る最新モデル「Gemini 2.0 Flash」を公開し、複雑な調査タスクを自動化する「Deep Research」機能をGemini Advanced向けに提供開始しました。
  • DeepSeek‐R1と研究論文の公開
    DeepSeekは完全オープンソースのLLMファミリー「DeepSeek‑R1」をMITライセンスで公開し、OpenAIの小型モデルo1に匹敵する性能を開示しました。大規模強化学習による推論能力の改善と、無償利用可能な小型モデル群が注目されました。
    さらにDeepSeekチームは「Transformer‑Squared」論文で、モデルの線形変換をタスクに合わせて自適応させる手法を提案し、小型モデルの柔軟性向上を示しました。
  • Stargate Projectの始動
    OpenAIなどが率いるコンソーシアムは米国で5000億ドル規模のインフラ整備事業「Stargate Project」を発表し、4年間でAI基盤を構築する計画を明らかにしました。米国内の再工業化や雇用創出を掲げ、テキサスから施設建設を開始します。
    また、モントリオール大のヨシュア・ベンジオ氏らが中心となった国際AI安全性報告書が30カ国以上の支援で公表され、汎用AIシステムの能力とリスクを総合的に評価する初の取り組みとなりました。
  • Operatorの登場
    OpenAIはブラウザ操作型のエージェント「Operator」を研究プレビューとして米国のProユーザー向けに提供しました。これはウェブページ上でフォーム入力やオンライン注文を自動化するもので、後のエージェント機能の前身となります。

2月

  • AI Action Summitとエネルギー消費指標の登場
    2月10–11日、パリにてAI Action Summitが開催され、各国首脳や企業、研究者、NGOが集まり、持続可能なAIの科学基盤と国際基準づくりについて議論しました。
    これに合わせてHugging FaceやSalesforceなどはAIモデルのエネルギー効率を可視化するAI Energy Scoreを発表し、166モデルを対象とする公的リーダーボードと5段階の星評価システムを公開しました。
  • Claude 3.7 Sonnet & Claude Code
    AnthropicはClaude 3.7 Sonnetをリリースしました。これは瞬時推論と拡張推論モードを併せ持つハイブリッドモデルで、ユーザーは近似ステップを公開しながらより長い課題に取り組めます。開発者向けには、コマンドラインツール「Claude Code」でエージェント的なコーディング支援を提供し、生成AIを使ったソフトウェア開発の効率化を目指しました。
  • Alexa+とGPT‑4.5
    Amazonはデバイスイベントで次世代アシスタントAlexa+を発表しました。ジェネレーティブAIを活用して自然な会話やマルチモーダル検索、予約などの複雑なタスクを実行し、Prime会員は無料、非会員は月19.99ドルで利用できます。
    一方OpenAIは「GPT‑4.5」を公開し、4シリーズの後継として推論精度向上と低ハルシネーションを実現しました(ニュース記事などで紹介されました)。
  • 深層研究(Deep Research)の導入
    OpenAIは「Deep Research」機能を発表し、ChatGPTが複数のウェブ検索・分析・要約を連続で実行して研究者のように情報収集する能力を持つことを示しました。これは後のChatGPTエージェントモードへとつながる重要な機能です。

3月

  • Gemini 2.5と音声モデルの進化
    Google DeepMindは多言語・マルチモーダルAI「Gemini 2.5」を発表し、複数の入力を統合した高性能な推論をアピールしました(詳細は報道等)。
    OpenAIは新しい音声モデルを発表し、従来よりも自然で正確な音声入力・出力を実現。利用者は音声スタイルをカスタマイズでき、字幕生成や音声対話の質が向上しました。
  • 4o Image Generationと長時間タスクの測定
    GPT‑4oモデルに組み込まれた画像生成機能が公開され、チャット内コンテキストを活用して高精度・フォトリアルな画像を生成できるようになりました。
    研究団体METRは「AIが完了できるタスク時間」を指標とする測定法を提案し、AIが数分間の作業はこなせるものの数時間に及ぶタスクにはまだ対応できず、作業完了時間の倍増周期が約7カ月であると報告しました。
  • Model Context Protocolの採用
    Anthropicが策定したModel Context Protocol (MCP)が業界標準として広がり、OpenAIは3月26日に同プロトコルの採用を発表しました。MCPは企業のデータソースからLLMへの安全な双方向接続を可能にし、各社のアプリケーションにおけるAIの拡張性を高めます。4月にはGoogle DeepMindも同プロトコルへの対応を表明し、エコシステム化が進みました。
  • GPT‑4oオーディオおよびテキスト・画像の一元化
    3月下旬、OpenAIは「GPT‑4o」をコアモデルとして採用し、GPT‑4機能の段階的退役を予告しました。4月のリリースではGPT‑4oがGPT‑4を代替し、推論品質が向上しました。
  • 「o1」シリーズのマルチモーダル対応アップデート
    3月中旬、OpenAIは推論モデル「o1」シリーズのマルチモーダル対応アップデートを実施し、画像や音声データを活用した論理的推論性能を大幅に強化しました。

4月

  • GPT‑4の引退とマルチ検索強化
    4月30日、OpenAIはChatGPTのモデル選択からGPT‑4を撤去し、より高速なGPT‑4oへ全面移行すると発表しましたtechcrunch.com。APIでは継続提供されます。
    同日AmazonはNova Premierを発表し、テキスト・画像・動画を扱う1Mトークン文脈長の高性能モデルをAmazon Bedrockで提供しました。複雑な計画や知識検索で優れている一方、一部ベンチマークでは他社に劣ると評価されました。
  • ChatGPT検索へのショッピング機能試験導入
    OpenAIはチャット検索に商品推薦や画像、レビュー、購入リンクを組み込んだアップデートを公開し、ユーザーは自然言語で細かな条件を指定してショッピング調査が可能になりました。商品情報は広告に左右されず独立して提供されると強調されています。
  • その他
    幻想的な生成映像サービスSora 2の制作が9月予定とされたことなど、技術ロードマップにも注目が集まりました。

5月

  • Jony Ive率いるio Productsの買収
    OpenAIは5月21日、Appleの元チーフデザイナーJony Ive氏が創業したio Productsを65億ドルで買収し、同氏をデザイン総責任者に迎えると発表しました。公式の書簡では、Jony Ive氏とLoveFrom社がOpenAIのデザイン全体を指揮しつつ独立性を維持すると述べています。
  • Claude 4 (Opus 4 / Sonnet 4)
    Anthropicは生成AIの4世代モデル「Claude Opus 4」と「Claude Sonnet 4」をリリースし、複雑なコーディングと推論、エージェント構築で世界トップレベルの性能を達成しました。Sonnet 4は無償利用にも提供され、拡張推論や並列ツール実行、長期記憶機能を備えています。

6月

  • Midjourney V1ビデオモデル
    テキストから画像生成で有名なMidjourneyは初のビデオモデル「V1 Video」をリリースしました。ユーザーは4秒単位で画像から動画への変換やモーションの指定ができ、外部画像のアニメーションも可能です。
  • Mistral MagistralとMistral Code
    Mistral AIは6月10日にMagistralシリーズを発表。オープンソースのSmallモデルと商用のMediumモデルで、法律や金融などドメイン特化の多言語推論を支援し、透過的な連鎖思考を採用しました。
    さらに6月4日には企業向け開発支援ツール「Mistral Code」を公開。JetBrainsやVS Codeに統合されたIDEアシスタントを提供し、ローカル展開・チーム管理機能を備えました。

7月

  • ChatGPT Agent
    OpenAIは7月17日、ChatGPTが自らの仮想コンピュータを使ってタスクを実行する「ChatGPT Agent」を発表しました。エージェントはカレンダー確認、買い物、競合分析などを計画的に行い、ブラウザやターミナル、APIなどのツール群を利用します。ユーザーの許可を得てから行動する仕様が強調されています。
  • Cometブラウザ
    PerplexityはAI搭載ブラウザ「Comet」をローンチしました。複数タブを統合し、ユーザーの質問に基づいてWeb全体を探索・要約・アクション実行することで、ブラウジング体験をシンプルかつ思考中心に変えることを目指しています。
  • xAI「Imagine」をアップデート
    7月中旬、xAIはSNS「X」のリアルタイム情報を基にした画像・動画生成ツール「Imagine」をアップデートし、動体描写の精度向上と生成速度の30%高速化を実施しました。

8月

  • GPT‑5とgpt‑oss
    OpenAIは8月7日にGPT‑5をリリースし、統一モデルと深い推論モデル(GPT‑5 thinking)をリアルタイムルーティングで切り替える仕組みを導入しました。コーディング、数学、健康、視覚理解で大幅な性能向上を実現し、PlusとProユーザー向けに長時間推論も提供されます。
    8月5日にはオープンウェイトモデル群gpt‑oss‑120b/20bをApache 2.0ライセンスで公開。120bモデルは80GB GPU1枚でo4-miniに近い性能を示し、20bはエッジデバイス向けに設計されています。
  • Genie 3とClaude Chrome拡張
    Google DeepMindはAGIに向けて現実世界をシミュレーションするGenie 3ワールドモデルを発表し、ロボット訓練や自動運転システムへの応用が期待されています。
    Anthropicは一部ユーザー向けにChromeブラウザ拡張の試用を開始し、Claudeが直接ページ上で動作する早期プレビューを提供しました。

9月

  • Sora 2とエージェント型コマース
    OpenAIは9月30日、物理的制約や音声同期を向上させた映像生成モデルSora 2と専用アプリを発表。複雑な動きを伴う動画や音声付き映像をリアルに生成できるとし、より安全に利用できるよう制御機能を強化しました。
    9月29日にはInstant Checkoutを導入し、Stripeと共同開発したAgentic Commerce Protocolにより米国のEtsy店舗や将来はShopifyも対象に、チャットから直接商品購入が可能になりました。
  • Claude Sonnet 4.5とChatGPT Pulse
    AnthropicはClaude Sonnet 4.5を公開し、複雑なエージェント構築やコーディングに特化した最強モデルを標榜しました。コードチェックポイントやVS Code拡張なども同時提供されました。
    一方OpenAIはChatGPTのモバイル版Proユーザー向けにChatGPT Pulseプレビューを発表。ユーザーのチャット履歴やカレンダー・Gmail連携を基に興味分野を調査し、視覚的なカード形式でトピックを自動配信します。
  • OpenAI Jobs Platform
    OpenAIはAI技能を持つ求職者と企業を結ぶ求人プラットフォームを9月4日に発表しました。OpenAI資格を活用して候補者の能力を可視化し、雇用格差の解消を目指します。

10月

  • ChatGPT AtlasとAgent Skills
    10月21日、OpenAIはChatGPTをブラウザに統合したChatGPT Atlasをローンチしました。記憶機能や履歴から文脈を継続する閲覧体験、エージェントモードとの連携、Mac版の提供などが特徴です。
    10月16日、AnthropicはAgent Skillsを発表し、スキルフォルダに指示・コード・リソースを蓄積してエージェントが動的に読み込める仕組みを提供しました。これにより特定分野の専門性を持つエージェントの構築が容易になり、大規模タスクの組み合わせが可能となります。
  • Claude Haiku 4.5とFirefly Image Model 5
    Anthropicは軽量モデルの最新版「Haiku 4.5」を提供開始し、コーディング性能が向上し、従来のSonnet 4と比べて3分の1のコストで2倍以上高速に動作すると紹介しました。
    AdobeはAdobe MAX 2025でFirefly Image Model 5を発表し、解像度を4MPに引き上げ、プロンプトベースの編集や複数要素の分割・レイヤー編集を可能にしました。TechCrunchはこのモデルがユーザー自身のカスタムモデル生成にも対応すると伝えています。
  • 「Canvas 2.0」を導入
    10月上旬、OpenAIはChatGPTに「Canvas 2.0」を導入し、文章作成やコーディングに加え、トピックを入力するだけでプレゼンテーション資料を自動生成する機能を実装しました。
  • 動画生成AI「Veo 3.1」をリリース
    10月24日、Googleは動画生成AI「Veo 3.1」をリリースし、キャラクターの一貫性を維持した複数カットの生成や、音声付きダイアログの自動同期機能を強化しました。

11月

  • 「GPT-5.1」を正式にリリース
    11月13日、OpenAIは情緒的表現と複雑な指示への理解力を向上させた最新モデル「GPT-5.1」を正式にリリースしました。
  • ChatGPTに「Shopping Research(ショッピング調査)」機能を導入
    11月24日、OpenAIはChatGPTに「Shopping Research(ショッピング調査)」機能を導入し、対話によるウェブ上の価格比較、レビュー収集、購入ガイドの自動生成を可能にしました。
  • 「Apps in ChatGPT」の連携対象を拡大
    OpenAIは、ChatGPTのチャット画面からCanvaやFigma、Expediaなどの外部アプリケーションを直接操作できる自律型エージェント機能「Apps in ChatGPT」の連携対象を拡大しました。
  • 「Gemini 3」を公開
    11月18日、Googleは論理推論能力と言語処理速度を大幅に強化した次世代モデル「Gemini 3」を公開し、日本語版の提供を即日開始しました。
  • 「Gemini 3 Pro Image Preview(Nano Banana Pro基盤)」をリリース
    11月20日、Googleは画像生成・編集用モデルの最新版「Gemini 3 Pro Image Preview(Nano Banana Pro基盤)」をリリースしました。
  • 「Antigravity」を一般公開
    GoogleはAIエージェント開発プラットフォーム「Antigravity」を一般公開し、開発者が自律的にタスクを計画・実行するエージェントを構築できる環境を整備しました。
  • 「Claude Opus 4.5」を公開
    11月24日、Anthropicはプロフェッショナルなソフトウェアエンジニアリングや高度な分析に特化した「Claude Opus 4.5」を公開しました。
  • Claudeに新機能「Skills」を追加
    AnthropicはClaudeに新機能「Skills」を追加し、Excelのデータ整理や特定の定型資料作成といった専門技能をモデルに付与・再利用できる仕組みを導入しました。
  • 「Claude for Chrome」の提供対象をMaxプラン加入者の全ユーザーへ拡大
    11月24日、Anthropicはブラウザ操作を支援する拡張機能「Claude for Chrome」の提供対象をMaxプラン加入者の全ユーザーへ拡大しました。
  • 「Grok 4.1」を正式にリリース
    11月18日、xAIは創造性と感情知能(EQ)のスコアを大幅に改善した最新の基盤モデル「Grok 4.1」を正式にリリースしました。
  • 「Imagine」の出力品質向上と生成速度の高速化
    xAIはモバイル版Grokアプリのv1.3.11を公開し、画像・動画生成機能「Imagine」の出力品質向上と生成速度の高速化を実施しました。

12月

1. OpenAI — GPT-5.2

  • リリース日:2025年12月11日
  • 概要:OpenAIの最新大型言語モデル。
    • GPT-5.2 instant(高速応答)
    • GPT-5.2 thinking(推論・思考モード)
    • GPT-5.2 Pro(プロ向け高性能版)
      が含まれるモデルファミリーとして提供。
  • 特徴:GPT-5系の後継でより高度な推論とマルチモーダル能力を持つ。
  • 提供:ChatGPTサービスおよびMicrosoft Copilotなどに統合。 ウィキペディア

2. Google — Gemini 3 シリーズ

(11月〜12月の継続提供アップデートとして)

🟡 Gemini 3 Flash

  • 提供時期:2025年12月17日
  • 概要:Google DeepMindがリリースした軽量・高速版の大規模AIモデル。
  • 用途:Google検索のAIモードへの統合や低レイテンシ処理向け。
  • 特徴:Gemini 3 Proに近い能力を低コストで実行可能。

🟡 Gemini 3 Deep Think

  • 提供時期:2025年12月5日頃
  • 概要:より深い推論能力を持つGemini 3シリーズモデル。
  • 用途:複雑推論・高精度タスク向け。
  • モデル系:Gemini 3 Pro と同体系でGoogle検索 AI モード等に組み込まれている。

3. Adobe — Firefly Generative Video Editor

  • 公開時期:12月中旬(Beta提供)
  • 概要:Adobeが提供する ブラウザベースのFirefly動画ジェネレータ/エディター
  • 主な機能
    • プロンプトベースの動画生成
    • タイムライン編集機能搭載(複数クリップの編集)
    • 1080p → 4Kアップスケール
    • フォト&ビデオの無制限生成(特定プラン限定 until Jan 2026)
  • 補足:FLUX.2モデルの統合など、写真生成と動画生成の連携も強化。

4. Anthropic — Claude 系 Workplace AI スキル

  • 発表時期:12月中旬
  • 新機能Agent Skills(エージェントスキル)
  • 概要
    • 企業向けに 生成AIのワークフロー自動化を助けるタスクスキル機能 を導入
    • この Agent Skills をオープン標準化し、他AIとの相互運用を促進
  • 目的:異なるAI間でのタスク自動化とプロセス標準化を目指す。

5. 利用ポリシー関連アップデート

(ツール側ではなくAIサービス運用の12月対応として)

🟡 OpenAI ChatGPT と Anthropic Claude の未成年ユーザー対応

  • 概要
    • 自動年齢推定モデル導入
    • 不適切な応答を避ける安全指針更新
    • 未成年と判断された場合の追加保護措置
  • 目的:安全性向上および法規制対応強化。
  • ツール例:ChatGPT、Claude
  • リリース時期:12月中旬(報道ベース)
  • 影響範囲:両プラットフォームに跨る安全性アップデート。

6. 実利用トレンド/サービス展開事例

(12月以降の実際の活用例・連携として)

🟡 日本郵便の年賀状生成サービス with Gemini

  • 提供時期:12月15日頃
  • 概要:Google Gemini の画像モデル Nano Banana Pro を活用した年賀状生成サービス。
  • ツール基盤:Gemini の高性能画像生成モデル
  • 特徴:無料でユニークな年賀状画像を生成可能。

7.その他

  • 「Rakuten AI 3.0」を発表
    12月18日、楽天グループは7000億パラメータを誇る日本語特化の大規模言語モデル「Rakuten AI 3.0」を発表しました。
  • 「GPT-5.2-Codex」を公開
    12月19日、OpenAIはサイバー攻撃の防御や複雑なシステム構築に特化した「GPT-5.2-Codex」を公開しました。

総括と展望

2025年の振り返り:AIエージェント実装元年

2025年は、生成AI市場において重要な転換点となった一年でした。これまでの対話型チャットボットという枠組みを脱却し、ユーザーの意図を深く理解した上で、自律的にタスクを遂行する「AIエージェント」が本格的に実装された年として位置づけられます。

OpenAIのGPT-5シリーズ、GoogleのGemini 3、そしてAnthropicのClaude 4.5といった次世代モデルの相次ぐ登場により、AI技術は新たな局面を迎えました。これらのモデルは、単に知識を提示するだけでなく、複雑な論理推論を実行し、外部アプリケーションを直接操作する能力を獲得しています。

特筆すべきは、「Shopping Research」や「Apps in ChatGPT」のような機能の普及です。これらは、ウェブ上の膨大な情報を探索・比較し、ユーザーの最終的な意思決定までをサポートします。この変化は、AIの役割が「思考のパートナー」から「実務の代行者」へと根本的にシフトしたことを明確に示しています。

今後の展望:マルチエージェント時代への移行

今後の生成AI市場は、個々のモデルの性能競争から、より高次元の段階へと進化していくと考えられます。具体的には、複数の専門特化型エージェントが相互に連携し、高度な業務フローを完遂する「マルチエージェント・エコシステム」の構築が中心的なテーマになるでしょう。

2026年に向けて、AI評価の基準そのものが変容することが予想されます。「いかに自然に対話できるか」という従来の指標から、「いかに確実に業務を完遂し、明確な投資対効果(ROI)を生み出すか」という実利重視の評価軸へと完全に移行するでしょう。

この流れの中で、AIは企業の基幹システムや個人のデバイスOSと深く統合され、「アンビエント(環境型)AI」として日常に溶け込んでいくと見込まれます。常に存在しながらも意識されない、空気のようなAI活用が標準となる時代が到来します。

新たな課題:インフラ整備の重要性

こうした技術進化に伴い、新たな課題も顕在化しています。AI運用に必要なエネルギーの安定確保や、ガバナンスの自動化といった物理的・制度的インフラの整備が、技術開発と同等かそれ以上に重要な経営課題となっていくでしょう。持続可能なAI活用体制の構築が、企業の競争力を左右する時代が目前に迫っています。