NTT株式会社は、画像と言語を扱うマルチモーダルAI基盤モデルの出力信頼性を高める新技術「根拠強化デコーディング」を確立しました。
NTTのLVLMが抱える推論根拠の非一貫性という課題
大規模言語モデル(LLM)と事前学習済み画像エンコーダを統合したLVLMは、テキストだけでは、なく画像を直接入力できる点が特徴です。動画像分析や文書読解のような複雑なマルチモーダル推論の基盤として、活用が進んでいます。
LVLMにおいても、視覚情報とテキスト入力から「推論の根拠」を中間的に生成し、根拠を入力系列に加え、最終的な回答を導くChain-of-Thought(CoT)は、推論能力の向上や説明可能な推論手法として、有効と考えられてきました。しかし、既存のCoTメカニズムは画像と根拠を一つの系列として入力して最終出力を生成するため、根拠の使用がモデル任せになっているのが現状です。
NTTの実験と分析によって、既存のLVLMはマルチモーダルCoT推論において、生成した推論根拠の内容を無視して、最終的な回答を生成してしまう傾向が明らかになりました。例えば、スライド文書の画像に対して無関係なスポーツカーに関する根拠を入力しても、モデルの最終出力が変わらない場合があります。こうした事例は、通常のLVLMによる推論では根拠と最終的な回答の一貫性が制限されており、説明可能な推論を行えないという根本的な課題を示しています。
NTTの「根拠強化デコーディング」の仕組みと技術的ポイント
「根拠強化デコーディング」は、この課題に対して追加のデータセットや再学習を必要としない形で開発された技術です。LVLMが次のトークンを予測する確率を、「画像に条件付けられた分布」と「推論の根拠に条件付けられた分布」に分離し、これらを掛け合わせることで、画像から得られる情報と根拠から得られる情報を調和させて回答を出力します。画像と根拠をそれぞれ独立した入力として扱うことで、推論の根拠が最終回答の生成に確実に反映される仕組みです。
技術のポイントは次の2点です。
- マルチモーダルCoTをKLダイバージェンス制約付きの報酬最大化問題として定式化し、推論時のみの計算で最適な次トークン予測を実現
- 最適解となる分布が「画像に条件付けられた分布」と「根拠に条件付けられた分布」の積で表現されることを数学的に証明し、追加学習不要のプラグアンドプレイ実装を可能に
実験では、様々なLVLMに根拠強化デコーディングを適用することによって、一貫して推論性能(正答率など)の大幅な向上が確認されています。GPT-4によって、生成された根拠のような高品質なテキストを与えた場合、その優位性はさらに増幅されることも実証されました。
NTTの「根拠強化デコーディング」の概要と発表情報
| 項目 | 詳細 |
|---|---|
| 発表企業 | NTT株式会社 |
| 本社所在地 | 東京都千代田区 |
| 代表者 | 島田 明氏 |
| 技術名称 | 根拠強化デコーディング |
| 技術カテゴリ | マルチモーダルAI推論技術 |
| 主な特徴 | 追加学習不要・プラグアンドプレイ型 KLダイバージェンス制約付き報酬最大化による定式化 既存LVLMへの組み込みに対応 |
| 発表学会 | Computer Vision and Pattern Recognition(CVPR 2026) |
| 開催期間・場所 | 2026年6月3日から2026年6月7日まで・米国・デンバー |
| 発表著者 | 山口 真弥氏、千々和 大輝氏(コンピュータ&データサイエンス研究所) 西田 光甫氏(人間情報研究所) |
trends編集部の一言
追加学習なしで既存のLVLMに組み込めるという点は、実用上のインパクトが大きいと言えます。マーケティングの現場でも生成AIを使う場面は増えていますが、「なぜその回答が出たのか」が説明できないことへの不安は、業界を問わず共通の課題です。説明可能AI(XAI)として、機能する仕組みが既存モデルへのプラグアンドプレイで実現できる点は、AI活用における説明責任の重視がさらに進む可能性を示しています。
マーケティングの文脈に置き換えると、AIが出した提案の根拠をそのまま上位層に説明しなければならない場面は多く、「なぜそのターゲティングか」「なぜそのコピーか」を追跡できないことは、実務上の大きな障壁になっています。推論根拠と最終出力の一貫性を担保する技術は、こうした現場の課題への一つの応答として、注目しておく価値がありそうです。
NTT株式会社がAIコンステレーションの具現化を見据えて本技術を位置づけている点にも、業界横断で関心を持つ方は多いのではないでしょうか。複数のAIが連携する環境では、各AIの推論根拠の信頼性がシステム全体の品質に直結します。業界全体としても、複数AI連携時代に向けた説明可能性への関心はさらに高まりそうです。
References
- ^ PR TIMES. 「なぜその結果になったのか?推論根拠を説明できるマルチモーダルXAI技術を確立 | NTT株式会社のプレスリリース」. https://prtimes.jp/main/html/rd/p/000000024.000181531.html, (参照 26-06-03).
※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。
ITやプログラミングに関するコラム
【Git】remote設定を変更する方法
【VBA】コメントアウトを設定する方法
マークダウンで改行する方法
【CSS】notで複数の件を除外する方法
x86とx64の違いを分かりやすく解説
GitLabとGitHubの違いを解説
パソコンのメモリの目安を用途別に選ぶ方法
Linuxで環境変数を確認する方法
CapsLockキーを解除する方法
UbuntuのIPアドレスを確認する方法
ITやプログラミングに関するニュース
AITORAがAI検索での競合比較を可視化、対策レポートをモニター価格月額10万円〜で提供
株式会社MIXIが「Romi(Lacatanモデル)」の選べる声を全4種類に拡大、キャラ変との組み合わせが広がる
藤枝市役所が国産LLM「Sarashina」活用の窓口AI実証事業で総務省採択、ソフトバンクと協定締結
Hanji株式会社がAIチューター「Knock」に赤入れ添削機能を追加、数十秒〜1分程度で大学入試レベルまで対応
KozotaiがAIネイティブ会計ソフト「KOZOTAI」を正式リリース、自然言語入力だけで仕訳から決算書まで一貫処理
NTT西日本株式会社が大阪・福岡に次世代AI対応型データセンターを新設、西日本のAIインフラ強化へ
パテント・インテグレーション株式会社が「サマリア」の弁理士法対応を強化、利用規約改訂と注意喚起機能を追加
アステリアキャンバスがAI業務プラットフォーム「Bakusoku.AI」を提供開始、最短3分で業務ソフトウェアを自動生成
合同会社DMM.comが「DMMキャラトーク」を提供開始、1,000以上のパターンのキャラクターと1対1でトーク
株式会社アスレバがゴリラセールスAI商談を正式リリース、顧客の検討熱度が高い瞬間にAIが商談化を自動化
