NTT株式会社が「根拠強化デコーディング」技術を確立、追加学習不要でLVLMを説明可能AIとして運用可能に

公開：2026年6月3日更新：2026年6月3日

CodeCampが提供するDX人材育成が可能なプログラミングやITが学べる公開講座

NTT株式会社は、画像と言語を扱うマルチモーダルAI基盤モデルの出力信頼性を高める新技術「根拠強化デコーディング」を確立しました。大規模視覚言語モデル（LVLM）がChain-of-Thought（CoT）による推論を行う際、自身が生成した推論根拠を無視して回答を出力してしまうという課題に対応した技術です。追加学習を一切必要とせず、既存のあらゆるLVLMにそのまま組み込めるプラグアンドプレイ型の推論時デコーディング技術として、実装されています。

NTTのLVLMが抱える推論根拠の非一貫性という課題
NTTの「根拠強化デコーディング」の仕組みと技術的ポイント
NTTの「根拠強化デコーディング」の概要と発表情報
trends編集部の一言
References

NTTのLVLMが抱える推論根拠の非一貫性という課題

大規模言語モデル（LLM）と事前学習済み画像エンコーダを統合したLVLMは、テキストだけでは、なく画像を直接入力できる点が特徴です。動画像分析や文書読解のような複雑なマルチモーダル推論の基盤として、活用が進んでいます。

LVLMにおいても、視覚情報とテキスト入力から「推論の根拠」を中間的に生成し、根拠を入力系列に加え、最終的な回答を導くChain-of-Thought（CoT）は、推論能力の向上や説明可能な推論手法として、有効と考えられてきました。しかし、既存のCoTメカニズムは画像と根拠を一つの系列として入力して最終出力を生成するため、根拠の使用がモデル任せになっているのが現状です。

NTTの実験と分析によって、既存のLVLMはマルチモーダルCoT推論において、生成した推論根拠の内容を無視して、最終的な回答を生成してしまう傾向が明らかになりました。例えば、スライド文書の画像に対して無関係なスポーツカーに関する根拠を入力しても、モデルの最終出力が変わらない場合があります。こうした事例は、通常のLVLMによる推論では根拠と最終的な回答の一貫性が制限されており、説明可能な推論を行えないという根本的な課題を示しています。

Python研修一覧はこちら

目的に合うPython研修を一覧形式から探したい方は、ぜひご利用ください。

Python研修を比較する

Java研修一覧はこちら

目的に合うJava研修を一覧形式から探したい方は、ぜひご利用ください。

Java研修を比較する

PHP研修一覧はこちら

目的に合うPHP研修を一覧形式から探したい方は、ぜひご利用ください。

PHP研修を比較する

新入社員研修

目的に合う新入社員研修を一覧形式から探したい方は、ぜひご利用ください。

新入社員研修を比較する

全ての研修からも探したい方はこちら

NTTの「根拠強化デコーディング」の仕組みと技術的ポイント

「根拠強化デコーディング」は、この課題に対して追加のデータセットや再学習を必要としない形で開発された技術です。LVLMが次のトークンを予測する確率を、「画像に条件付けられた分布」と「推論の根拠に条件付けられた分布」に分離し、これらを掛け合わせることで、画像から得られる情報と根拠から得られる情報を調和させて回答を出力します。画像と根拠をそれぞれ独立した入力として扱うことで、推論の根拠が最終回答の生成に確実に反映される仕組みです。

技術のポイントは次の2点です。

マルチモーダルCoTをKLダイバージェンス制約付きの報酬最大化問題として定式化し、推論時のみの計算で最適な次トークン予測を実現
最適解となる分布が「画像に条件付けられた分布」と「根拠に条件付けられた分布」の積で表現されることを数学的に証明し、追加学習不要のプラグアンドプレイ実装を可能に

実験では、様々なLVLMに根拠強化デコーディングを適用することによって、一貫して推論性能（正答率など）の大幅な向上が確認されています。GPT-4によって、生成された根拠のような高品質なテキストを与えた場合、その優位性はさらに増幅されることも実証されました。

NTTの「根拠強化デコーディング」の概要と発表情報

項目	詳細
発表企業	NTT株式会社
本社所在地	東京都千代田区
代表者	島田　明氏
技術名称	根拠強化デコーディング
技術カテゴリ	マルチモーダルAI推論技術
主な特徴	追加学習不要・プラグアンドプレイ型 KLダイバージェンス制約付き報酬最大化による定式化既存LVLMへの組み込みに対応
発表学会	Computer Vision and Pattern Recognition（CVPR 2026）
開催期間・場所	2026年6月3日から2026年6月7日まで・米国・デンバー
発表著者	山口真弥氏、千々和大輝氏（コンピュータ＆データサイエンス研究所）西田光甫氏（人間情報研究所）

CVPR 2026の詳細はこちら

Python基礎・実践(Django)

企業・法人向けのPython研修では、基礎から応用まで体系的に学べます。

Python研修の詳細

DX社員研修

企業・法人向けのDX研修では、実務に繋がるリスキリングでITレベルを向上させます。

DX研修の詳細

Javaエンジニア育成研修

企業・法人向けのJavaエンジニア育成研修では、Javaの基礎から応用まで確実に習得できます。

Java研修の詳細

新卒・新入社員向け研修

企業・法人に新入社員・新卒社員に向けたプログラミング研修を提供しています。

新入社員研修の詳細

コードキャンプのIT研修を全て見る

trends編集部の一言

追加学習なしで既存のLVLMに組み込めるという点は、実用上のインパクトが大きいと言えます。マーケティングの現場でも生成AIを使う場面は増えていますが、「なぜその回答が出たのか」が説明できないことへの不安は、業界を問わず共通の課題です。説明可能AI（XAI）として、機能する仕組みが既存モデルへのプラグアンドプレイで実現できる点は、AI活用における説明責任の重視がさらに進む可能性を示しています。

マーケティングの文脈に置き換えると、AIが出した提案の根拠をそのまま上位層に説明しなければならない場面は多く、「なぜそのターゲティングか」「なぜそのコピーか」を追跡できないことは、実務上の大きな障壁になっています。推論根拠と最終出力の一貫性を担保する技術は、こうした現場の課題への一つの応答として、注目しておく価値がありそうです。

NTT株式会社がAIコンステレーションの具現化を見据えて本技術を位置づけている点にも、業界横断で関心を持つ方は多いのではないでしょうか。複数のAIが連携する環境では、各AIの推論根拠の信頼性がシステム全体の品質に直結します。業界全体としても、複数AI連携時代に向けた説明可能性への関心はさらに高まりそうです。