株式会社APTOは、日本語LLMの安全性向上を目的とした安全性チューニング済みモデルおよび学習データセットを公開しました。
APTOによる日本語LLM安全性向上へのアプローチ
生成AIの活用が急速に広がる中、有害出力への対応や倫理的な応答の実現は依然として重要な課題です。特に日本語LLM領域では、文化的背景や日本語特有の文脈を踏まえた安全性データの不足が課題となっていました。
株式会社APTOは、この課題に対して日本語特有の文脈や表現を考慮したデータ設計で取り組みました。英語圏中心の安全性手法を単純に適用するのではなく、日本語環境に特化した約18,000件のデータを独自に作成しています。データ設計には、以下の4段階のプロセスが採用されました。
- 攻撃プロンプト設計
- モデル応答生成と模範安全回答の作成
- 品質精査
- LLM-as-Judgeによる5段階の自動品質評価
このプロセスを通じて、安全な質問への過剰拒否を抑制するデータやACL 2025のDecoupled Refusal Training(DeRTa)に着想を得た応答途中からの軌道修正パターンも導入されています。学習にはLoRA(Low-Rank Adaptation)を採用し、モデルサイズごとにランクやターゲット層の最適化も行われました。
APTOが公開したモデルとデータセットの内容
今回公開されたコンテンツは、安全性チューニング済みモデルと学習データセットのサンプルの2種類です。モデルはQwen3.5シリーズをベースに日本語安全性へ特化したチューニングが施されており、推論環境に応じたGGUF量子化版も用意されました。
学習データセットとして公開されたサンプルには、以下のカテゴリが含まれています。
- safety_refusal:有害な質問への適切な拒否と安全な代替案の提示
- overrefusal_prevention:安全な質問への過剰拒否防止
- mid_refusal:応答途中からの軌道修正パターン
- anti_hallucination:存在しない情報の捏造防止
公開サンプルは約18,000件の全データから構成比を維持した500件で構成されています。Hugging Faceのデータセットページ(https://huggingface.co/datasets/APTO-001/ja-safety-sft-dataset)がアクセス先です。
APTOモデルのベンチマーク評価結果
評価には、日本語LLM安全性ベンチマーク「AnswerCarefully v2.2」をはじめ、「SORRY-Bench」「MultiJail」「MT-Bench」など複数のベンチマークが採用されました。QwenやMistral、Gemmaの3系統LLMによるクロス評価も実施されており、評価信頼性の向上が図られています。
ベンチマークの評価結果(簡易)は次の通りです。
| 指標 | チューニング前 | チューニング後 | 変化 |
|---|---|---|---|
| AC Acceptable Rate | 84.1% | 89.8% | +5.7pt |
| SORRY-Bench 拒否率 | 85.3% | 90.4% | +5.1pt |
| MT-Bench-ja | 8.97 | 8.97 | 維持 |
| JMMLU | 67.8% | 75.6% | +7.9pt |
Qwen3.5-9B-Baseモデルでは、安全性指標「AC Acceptable Rate」が66.8%から80.2%へ改善し、最大13.4ポイントの向上が確認されました。MT-Bench-jaのスコアは8.97で維持されています。
株式会社APTOの日本語安全性学習データ概要
| 項目 | 詳細 |
|---|---|
| 開発元 | 株式会社APTO |
| データセット名 | 日本語安全性学習データ |
| データ件数 | 約18,000件 |
| 品質担保プロセス | 4段階 |
| LLM-as-Judge評価 | 5段階 |
| クロス評価LLM | 3系統(QwenやMistral、Gemma) |
| 学習手法 | LoRA(Low-Rank Adaptation) |
| 公開プラットフォーム | Hugging Face |
| 所在地 | 東京都渋谷区神南1-5-14三船ビル4F 403号室 |
| 代表者 | 代表取締役 高品 良 |
| URL | https://apto.co.jp/ |
trends編集部の一言
MT-Bench-jaスコアを8.97で維持しながら、安全性指標を最大13.4ポイント改善した点は、数字として見ても説得力があります。一般的に安全性を高めようとすると応答の品質や柔軟性が落ちるというトレードオフは、マーケティングの現場でも社内AIツールの導入判断において「精度か安全性か」という形でよく話題に上るのが実態です。その両立を日本語特化のデータ設計で示した点は、業界全体として注目に値するでしょう。
「harBest」「harBest Dataset」「harBest Expert」といったデータ支援サービスを持つ株式会社APTOが、今回のノウハウを企業向けのLLM安全性チューニングや学習データセット開発支援に展開するという方向性は、マーケティング領域におけるAI本格導入の技術的ハードルを下げる動きとして、業界全体から注目が集まりそうです。
References
- ^ PR TIMES. 「APTO、日本語LLMの安全性向上を目的とした学習データセットおよび安全性チューニングモデルを公開 | 株式会社APTOのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000169.000053927.html, (参照 26-05-23).
※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。
ITやプログラミングに関するコラム
【Git】remote設定を変更する方法
【VBA】コメントアウトを設定する方法
マークダウンで改行する方法
【CSS】notで複数の件を除外する方法
x86とx64の違いを分かりやすく解説
GitLabとGitHubの違いを解説
パソコンのメモリの目安を用途別に選ぶ方法
Linuxで環境変数を確認する方法
CapsLockキーを解除する方法
UbuntuのIPアドレスを確認する方法
ITやプログラミングに関するニュース
株式会社AOZORA COMPANYがAI中古車仕入れ分析システムを導入、店舗別需要予測で在庫効率化を実現
日本ビジネスシステムズが「JBS AI & Data ガバナンスオペレーションズ」を提供開始、データとAIを統合管理
デンソーテンが車載エッジでRAGを省メモリ実行する生成AI技術を開発、メモリ容量を30~60%削減しつつ検索精度を維持
米 PTCがCAD最新版「Creo 13」「Creo+ 13.3」を提供開始、Creo AI Assistantを搭載
株式会社オロがAIO支援サービスを提供開始、Semrushのデータを活用しAI検索の可視化から施策実行まで一気通貫で対応
エルボーズがリアル産業向けAIエージェント導入・業務変革支援を本格提供開始、200近いDXプロジェクトの知見を活用
株式会社TOKIUMが「AI申請ドラフト機能」の提供を開始、見積書から稟議の下書きを自動作成し申請業務の負担を軽減
HODL1が「AI経営管理エージェント」のAIレクチャープランを提供開始、AI活用可能性の整理を支援
株式会社Upflowの「Upflow」が株式会社canuuに導入され、現時点で打ち合わせ時間を5〜10%削減
まほろば創研と計測検査がAI非破壊判定ソフトウェアを共同開発、配管劣化を写真1枚で判定
