株式会社APTOが日本語安全性学習データを公開、最大13.4ポイントの安全性改善と対話品質維持を両立

株式会社APTOが日本語安全性学習データを公開、最大13.4ポイントの安全性改善と対話品質維持を両立

公開: 更新:
CodeCampが提供するDX人材育成が可能なプログラミングやITが学べる公開講座

株式会社APTOは、日本語LLMの安全性向上を目的とした安全性チューニング済みモデルおよび学習データセットを公開しました。約18,000件の日本語安全性学習データを独自設計し、安全性と対話品質の両立を目指したチューニングを実施しています。複数のベンチマークで安全性指標の改善と品質維持を確認しており、モデルとデータセットはHugging Faceで公開されています。



APTOによる日本語LLM安全性向上へのアプローチ

生成AIの活用が急速に広がる中、有害出力への対応や倫理的な応答の実現は依然として重要な課題です。特に日本語LLM領域では、文化的背景や日本語特有の文脈を踏まえた安全性データの不足が課題となっていました。

株式会社APTOは、この課題に対して日本語特有の文脈や表現を考慮したデータ設計で取り組みました。英語圏中心の安全性手法を単純に適用するのではなく、日本語環境に特化した約18,000件のデータを独自に作成しています。データ設計には、以下の4段階のプロセスが採用されました。

  • 攻撃プロンプト設計
  • モデル応答生成と模範安全回答の作成
  • 品質精査
  • LLM-as-Judgeによる5段階の自動品質評価

このプロセスを通じて、安全な質問への過剰拒否を抑制するデータやACL 2025のDecoupled Refusal Training(DeRTa)に着想を得た応答途中からの軌道修正パターンも導入されています。学習にはLoRA(Low-Rank Adaptation)を採用し、モデルサイズごとにランクやターゲット層の最適化も行われました。


Python研修一覧はこちら

目的に合うPython研修を一覧形式から探したい方は、ぜひご利用ください。

Python研修を比較する

Java研修一覧はこちら

目的に合うJava研修を一覧形式から探したい方は、ぜひご利用ください。

Java研修を比較する

PHP研修一覧はこちら

目的に合うPHP研修を一覧形式から探したい方は、ぜひご利用ください。

PHP研修を比較する

新入社員研修

目的に合う新入社員研修を一覧形式から探したい方は、ぜひご利用ください。

新入社員研修を比較する

全ての研修からも探したい方はこちら

APTOが公開したモデルとデータセットの内容

今回公開されたコンテンツは、安全性チューニング済みモデルと学習データセットのサンプルの2種類です。モデルはQwen3.5シリーズをベースに日本語安全性へ特化したチューニングが施されており、推論環境に応じたGGUF量子化版も用意されました。

学習データセットとして公開されたサンプルには、以下のカテゴリが含まれています。

  • safety_refusal:有害な質問への適切な拒否と安全な代替案の提示
  • overrefusal_prevention:安全な質問への過剰拒否防止
  • mid_refusal:応答途中からの軌道修正パターン
  • anti_hallucination:存在しない情報の捏造防止

公開サンプルは約18,000件の全データから構成比を維持した500件で構成されています。Hugging Faceのデータセットページ(https://huggingface.co/datasets/APTO-001/ja-safety-sft-dataset)がアクセス先です。

APTOモデルのベンチマーク評価結果

評価には、日本語LLM安全性ベンチマーク「AnswerCarefully v2.2」をはじめ、「SORRY-Bench」「MultiJail」「MT-Bench」など複数のベンチマークが採用されました。QwenやMistral、Gemmaの3系統LLMによるクロス評価も実施されており、評価信頼性の向上が図られています。

ベンチマークの評価結果(簡易)は次の通りです。

指標 チューニング前 チューニング後 変化
AC Acceptable Rate 84.1% 89.8% +5.7pt
SORRY-Bench 拒否率 85.3% 90.4% +5.1pt
MT-Bench-ja 8.97 8.97 維持
JMMLU 67.8% 75.6% +7.9pt

Qwen3.5-9B-Baseモデルでは、安全性指標「AC Acceptable Rate」が66.8%から80.2%へ改善し、最大13.4ポイントの向上が確認されました。MT-Bench-jaのスコアは8.97で維持されています。


Python基礎・実践(Django)

企業・法人向けのPython研修では、基礎から応用まで体系的に学べます。

Python研修の詳細

DX社員研修

企業・法人向けのDX研修では、実務に繋がるリスキリングでITレベルを向上させます。

DX研修の詳細

Javaエンジニア育成研修

企業・法人向けのJavaエンジニア育成研修では、Javaの基礎から応用まで確実に習得できます。

Java研修の詳細

新卒・新入社員向け研修

企業・法人に新入社員・新卒社員に向けたプログラミング研修を提供しています。

新入社員研修の詳細

コードキャンプのIT研修を全て見る

株式会社APTOの日本語安全性学習データ概要

項目 詳細
開発元 株式会社APTO
データセット名 日本語安全性学習データ
データ件数 約18,000件
品質担保プロセス 4段階
LLM-as-Judge評価 5段階
クロス評価LLM 3系統(QwenやMistral、Gemma)
学習手法 LoRA(Low-Rank Adaptation)
公開プラットフォーム Hugging Face
所在地 東京都渋谷区神南1-5-14三船ビル4F 403号室
代表者 代表取締役 高品 良
URL https://apto.co.jp/
日本語安全性学習データの詳細はこちら

trends編集部の一言

MT-Bench-jaスコアを8.97で維持しながら、安全性指標を最大13.4ポイント改善した点は、数字として見ても説得力があります。一般的に安全性を高めようとすると応答の品質や柔軟性が落ちるというトレードオフは、マーケティングの現場でも社内AIツールの導入判断において「精度か安全性か」という形でよく話題に上るのが実態です。その両立を日本語特化のデータ設計で示した点は、業界全体として注目に値するでしょう。

「harBest」「harBest Dataset」「harBest Expert」といったデータ支援サービスを持つ株式会社APTOが、今回のノウハウを企業向けのLLM安全性チューニングや学習データセット開発支援に展開するという方向性は、マーケティング領域におけるAI本格導入の技術的ハードルを下げる動きとして、業界全体から注目が集まりそうです。

References

  1. ^ PR TIMES. 「APTO、日本語LLMの安全性向上を目的とした学習データセットおよび安全性チューニングモデルを公開 | 株式会社APTOのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000169.000053927.html, (参照 26-05-23).

※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。

ITやプログラミングに関するコラム


ITやプログラミングに関するニュース

ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。

企業・法人向けのIT・プログラミング・生成AI研修を探す、比較する - IT・プログラミングを知って学べるコネクトメディア CodeCampが提供するDX人材育成が可能なプログラミングやITが学べる公開講座 - IT・プログラミングを知って学べるコネクトメディア コードキャンプが提供する無料で学べるプログラミングスクール講座 - IT・プログラミングを知って学べるコネクトメディア コードキャンプDX人材育成研修 - IT・プログラミングを知って学べるコネクトメディア 配属3ヶ月で30%の生産性向上を実現するいよぎんコンピュータサービスの新人研修に迫る - IT・プログラミングを知って学べるコネクトメディア 金融業界の業務効率化を加速するニッセイアセットマネジメントの生成AI×GAS活用研修事例 - IT・プログラミングを知って学べるコネクトメディア 【製造業のDX人材育成事例】デジタル人材の即戦力化を実現する、日本ガイシ株式会社の異動者向オンボーディング研修 - ITやプログラミングを知って学べるコネクトメディア フューチャーアーキテクト株式会社が実現した新入社員向けIT研修プログラムでタスクフォース制度が主体的な学びと成長を生み出す - IT・プログラミングを知って学べるコネクトメディア コードキャンプDX人材育成研修 - IT・プログラミングを知って学べるコネクトメディア コードキャンプIT・プログラミング研修事例/【IT新入社員研修】オンラインとオフラインの最適バランスを実現したFutureOneの導入事例 - IT・プログラミングを知って学べるコネクトメディア コードキャンプIT・プログラミング研修事例/【新入社員研修】柔軟なハイブリッド型Java研修で実現した新卒20名の成長と成果|サークレイス株式会社 - ITやプログラミングを知って学べるコネクトメディア コードキャンプIT・プログラミング研修事例/現場により近いところにデジタルを根付かせるDX基礎講座研修|株式会社ブリヂストン - ITやプログラミングを知って学べるコネクトメディア コードキャンプIT・プログラミング研修事例/業務の効率化・DX推進に向けたIT人材育成への第一歩|株式会社カナエ - ITやプログラミングを知って学べるコネクトメディア 企業・法人向けのIT・プログラミング研修 - ITやプログラミングを知って学べるコネクトメディア

新着記事

対象者別で探す

子供(小学生・中学生・高校生)向け
プログラミング教室検索する

子供(小学生・中学生・高校生)がロボットやプログラミング言語を学ぶことができるオフラインからオンラインスクールを検索、比較することが可能です。

子供(小学生・中学生・高校生)
プログラミング教室検索する

ITやプログラムなどの
最新情報を検索する

日々、新しいITやプログラミング言語の情報が流れていきますが、特定の情報を時系列でニュースやコラムを確認することができます。

ITやプログラムなどの
最新情報を検索する