株式会社APTOが日本語安全性学習データを公開、最大13.4ポイントの安全性改善と対話品質維持を両立

公開：2026年5月23日更新：2026年5月23日

CodeCampが提供するDX人材育成が可能なプログラミングやITが学べる公開講座

株式会社APTOは、日本語LLMの安全性向上を目的とした安全性チューニング済みモデルおよび学習データセットを公開しました。約18,000件の日本語安全性学習データを独自設計し、安全性と対話品質の両立を目指したチューニングを実施しています。複数のベンチマークで安全性指標の改善と品質維持を確認しており、モデルとデータセットはHugging Faceで公開されています。

APTOによる日本語LLM安全性向上へのアプローチ
APTOが公開したモデルとデータセットの内容
APTOモデルのベンチマーク評価結果
株式会社APTOの日本語安全性学習データ概要
trends編集部の一言
References

APTOによる日本語LLM安全性向上へのアプローチ

生成AIの活用が急速に広がる中、有害出力への対応や倫理的な応答の実現は依然として重要な課題です。特に日本語LLM領域では、文化的背景や日本語特有の文脈を踏まえた安全性データの不足が課題となっていました。

株式会社APTOは、この課題に対して日本語特有の文脈や表現を考慮したデータ設計で取り組みました。英語圏中心の安全性手法を単純に適用するのではなく、日本語環境に特化した約18,000件のデータを独自に作成しています。データ設計には、以下の4段階のプロセスが採用されました。

攻撃プロンプト設計
モデル応答生成と模範安全回答の作成
品質精査
LLM-as-Judgeによる5段階の自動品質評価

このプロセスを通じて、安全な質問への過剰拒否を抑制するデータやACL 2025のDecoupled Refusal Training（DeRTa）に着想を得た応答途中からの軌道修正パターンも導入されています。学習にはLoRA（Low-Rank Adaptation）を採用し、モデルサイズごとにランクやターゲット層の最適化も行われました。

Python研修一覧はこちら

目的に合うPython研修を一覧形式から探したい方は、ぜひご利用ください。

Python研修を比較する

Java研修一覧はこちら

目的に合うJava研修を一覧形式から探したい方は、ぜひご利用ください。

Java研修を比較する

PHP研修一覧はこちら

目的に合うPHP研修を一覧形式から探したい方は、ぜひご利用ください。

PHP研修を比較する

新入社員研修

目的に合う新入社員研修を一覧形式から探したい方は、ぜひご利用ください。

新入社員研修を比較する

全ての研修からも探したい方はこちら

APTOが公開したモデルとデータセットの内容

今回公開されたコンテンツは、安全性チューニング済みモデルと学習データセットのサンプルの2種類です。モデルはQwen3.5シリーズをベースに日本語安全性へ特化したチューニングが施されており、推論環境に応じたGGUF量子化版も用意されました。

学習データセットとして公開されたサンプルには、以下のカテゴリが含まれています。

safety_refusal:有害な質問への適切な拒否と安全な代替案の提示
overrefusal_prevention:安全な質問への過剰拒否防止
mid_refusal:応答途中からの軌道修正パターン
anti_hallucination:存在しない情報の捏造防止

公開サンプルは約18,000件の全データから構成比を維持した500件で構成されています。Hugging Faceのデータセットページ（https://huggingface.co/datasets/APTO-001/ja-safety-sft-dataset）がアクセス先です。

APTOモデルのベンチマーク評価結果

評価には、日本語LLM安全性ベンチマーク「AnswerCarefully v2.2」をはじめ、「SORRY-Bench」「MultiJail」「MT-Bench」など複数のベンチマークが採用されました。QwenやMistral、Gemmaの3系統LLMによるクロス評価も実施されており、評価信頼性の向上が図られています。

ベンチマークの評価結果（簡易）は次の通りです。

指標	チューニング前	チューニング後	変化
AC Acceptable Rate	84.1%	89.8%	+5.7pt
SORRY-Bench 拒否率	85.3%	90.4%	+5.1pt
MT-Bench-ja	8.97	8.97	維持
JMMLU	67.8%	75.6%	+7.9pt

Qwen3.5-9B-Baseモデルでは、安全性指標「AC Acceptable Rate」が66.8%から80.2%へ改善し、最大13.4ポイントの向上が確認されました。MT-Bench-jaのスコアは8.97で維持されています。

Python基礎・実践(Django)

企業・法人向けのPython研修では、基礎から応用まで体系的に学べます。

Python研修の詳細

DX社員研修

企業・法人向けのDX研修では、実務に繋がるリスキリングでITレベルを向上させます。

DX研修の詳細

Javaエンジニア育成研修

企業・法人向けのJavaエンジニア育成研修では、Javaの基礎から応用まで確実に習得できます。

Java研修の詳細

新卒・新入社員向け研修

企業・法人に新入社員・新卒社員に向けたプログラミング研修を提供しています。

新入社員研修の詳細

コードキャンプのIT研修を全て見る

株式会社APTOの日本語安全性学習データ概要

項目	詳細
開発元	株式会社APTO
データセット名	日本語安全性学習データ
データ件数	約18,000件
品質担保プロセス	4段階
LLM-as-Judge評価	5段階
クロス評価LLM	3系統（QwenやMistral、Gemma）
学習手法	LoRA（Low-Rank Adaptation）
公開プラットフォーム	Hugging Face
所在地	東京都渋谷区神南1-5-14三船ビル4F 403号室
代表者	代表取締役　高品良
URL	https://apto.co.jp/

日本語安全性学習データの詳細はこちら

trends編集部の一言

MT-Bench-jaスコアを8.97で維持しながら、安全性指標を最大13.4ポイント改善した点は、数字として見ても説得力があります。一般的に安全性を高めようとすると応答の品質や柔軟性が落ちるというトレードオフは、マーケティングの現場でも社内AIツールの導入判断において「精度か安全性か」という形でよく話題に上るのが実態です。その両立を日本語特化のデータ設計で示した点は、業界全体として注目に値するでしょう。

「harBest」「harBest Dataset」「harBest Expert」といったデータ支援サービスを持つ株式会社APTOが、今回のノウハウを企業向けのLLM安全性チューニングや学習データセット開発支援に展開するという方向性は、マーケティング領域におけるAI本格導入の技術的ハードルを下げる動きとして、業界全体から注目が集まりそうです。

References

^ PR TIMES. 「APTO、日本語LLMの安全性向上を目的とした学習データセットおよび安全性チューニングモデルを公開 | 株式会社APTOのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000169.000053927.html, (参照 26-05-23).

※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。