株式会社リコーは、図表を含む日本語業務文書におけるAIの推論性能を評価するベンチマークツール「JDocQA Reasoning Benchmark」を開発し、無償公開しました。
JDocQA Reasoning Benchmarkの開発背景
生成AIの技術進化と社会的な広がりを受け、AIが複雑な情報を含む非構造化データをいかに正確に理解し、論理的に推論できるかが重要視されています。一方で、日本語ドキュメント特有の図表を含む情報を正確に解析・評価することは、依然として難しい課題です。
株式会社リコーは、GENIAC第3期において、図表を含む多様なドキュメントを高精度に読み取り推論できるマルチモーダル大規模言語モデルの基本モデル「Qwen3-VL-Ricoh-32B-20260227」および「Qwen3-VL-Ricoh-8B-20260227」を開発しました。その性能を適切に評価するための基盤整備として、本ベンチマークの開発にも取り組みました。
JDocQA Reasoning Benchmarkの主な特徴
「JDocQA Reasoning Benchmark」は、JDocQAのテスト画像のうち棒グラフや折れ線グラフ、財務諸表・路線図など20種類以上の図表を含むサブセットを対象に、リコーが独自に一問一答形式のQAアノテーションを新規で付与した構成が最大の差別化ポイントです。視覚とテキストの両方の情報を活用する日本語の質問応答データセットであるJDocQAを起点に設計されており、全1,287問で構成されています。
評価できる推論タスクは以下の4種類です。
- 抽出:図表やフローに示された情報をそのまま取り出す
- 計算:抽出値をもとに四則演算・比率・統計的集約などの数値処理を行う
- 比較:複数の値や要素を対比し関係性を明らかにする
- 補完:欠落データを既存要素から推定・再構成する
これらの多様なタスク設計によって、図表の読み取り能力と推論能力を多角的に評価できます。評価コードをApache License 2.0、QAアノテーション部分をCC BY-SA 4.0で公開しており、商用・非商用を問わず、幅広く利用できるオープンソース形式での提供となっています。
JDocQA Reasoning Benchmarkの公開概要
| 項目 | 詳細 |
|---|---|
| 開発元 | 株式会社リコー(社長執行役員:大山 晃氏) |
| ツール名 | JDocQA Reasoning Benchmark |
| 公開形態 | 無償公開 |
| 問題数 | 全1,287問 |
| 対象図表種別 | 棒グラフ・折れ線グラフ・財務諸表・路線図など20種類以上 |
| ライセンス(評価コード) | Apache License 2.0 |
| ライセンス(QAアノテーション) | CC BY-SA 4.0 |
| 関連プロジェクト | GENIAC(Generative AI Accelerator Challenge)基盤モデル開発第3期 |
| 公開先 | https://huggingface.co/datasets/ricoh-ai/JDocQA-Reasoning |
| JDocQA原著者所属 | 奈良先端科学技術大学院大学 / 理化学研究所 / 国際電気通信基礎技術研究所(ATR) |
trends編集部の一言
全1,287問という規模で、計算や比較、補完まで多段階の推論タスクを網羅したベンチマークが無償公開されました。業界全体としては、英語中心の評価指標に対して日本語ドキュメント特有の図表処理を正確に測る手段が乏しい状況が続いており、こうした公開ツールの蓄積がモデル評価の標準化を後押しする流れになっています。
マーケティングの現場でも、レポートや財務資料をAIに読み込ませて分析を依頼する機会は増えています。「グラフの数値を読んで前年比を計算してほしい」という使い方がどれほど正確に機能するかを客観的に測定できる仕組みが整ったことで、業界全体としてAIツール比較・選定時に推論評価への関心が高まる流れが加速しそうです。オープンソース公開によって業界内で評価基盤の比較検証が進む可能性があり、マーケティング業界の文脈に置き換えると、図表読み取り精度の定量評価が普及することでAI活用の意思決定プロセスに変化が生じると捉えられます。
References
- ^ PR TIMES. 「リコー、生成AIの推論性能を測る独自ベンチマークを無償公開 | 株式会社リコーのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000178.000043114.html, (参照 26-05-30).
※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。
ITやプログラミングに関するコラム
【Git】remote設定を変更する方法
【VBA】コメントアウトを設定する方法
マークダウンで改行する方法
【CSS】notで複数の件を除外する方法
x86とx64の違いを分かりやすく解説
GitLabとGitHubの違いを解説
パソコンのメモリの目安を用途別に選ぶ方法
Linuxで環境変数を確認する方法
CapsLockキーを解除する方法
UbuntuのIPアドレスを確認する方法
ITやプログラミングに関するニュース
大塚商会が建設業向け生成AIアシスタントテンプレートの提供を開始、数時間を要した入札事前調査を大幅に短縮へ
無料LLMO診断ツールがAI引用されやすいページかを約30秒でスコアリング、7観点×35シグナルで改善優先度まで可視化
CADDiがAstemoの子会社Astemo Hanoiに導入、情報探索工数の削減と付加価値業務へのリソースシフトを支援
まるちゃが外部企業へ提供開始、丸紅グループで月間アクティブユーザ10,000名以上が活用した生成AI基盤をSaaSで提供
ジンベイGenOCRが信頼度ハイライト機能をリリース、AIが認識に迷った箇所を自動で可視化し確認工数削減を支援
ElevenLabsがGoogleのAIウォーターマーク技術「SynthID」に対応、音声AIコンテンツの来歴確認を支援
exaBase 生成AIが「Claude Fable 5」の提供を開始、悪用リスクへの自動応答セーフガードを設定
Gunosyがハイパーローカル記事生成システムを開発、AIエージェントによる地域情報の取得から記事作成・配信までを効率化
株式会社AtsumellがKakusillを「プロウィズ」へ導入、要件言語化の支援で外部人材活用を加速
ホワイトリンクが病院・クリニック向けSEO支援サービスを提供開始、Google検索・AI検索・MEOを横断して集患を支援
