楽天が日本語特化のLLM「Rakuten AI 2.0」を発表。ChatGPT・Claudeとの違いや具体的な使い方を紹介

公開：2025年2月15日更新：2025年2月26日

高度なMixture of Experts（MoE）アーキテクチャ
軽量かつ高性能な小規模モデル「Rakuten AI 2.0 mini」
SimPOによる最適化
最高水準の日本語性能
オープンソースでの提供
References

楽天、最新の日本語LLM「Rakuten AI 2.0」と軽量版「Rakuten AI 2.0 mini」を発表

楽天グループ株式会社が新たな日本語対応の大規模言語モデル（LLM）「Rakuten AI 2.0」と、よりコンパクトな小規模言語モデル（SLM）「Rakuten AI 2.0 mini」の提供を開始したことを発表しました。^[1]

今回のリリースではMixture of Experts（MoE）アーキテクチャを採用した「Rakuten AI 2.0」をはじめ、同社が初めて開発した小型モデル「Rakuten AI 2.0 mini」も登場。さらにこれらのモデルに対してインストラクションチューニング（指示理解能力の向上）を施したバージョンも提供されます。

全モデルはApache 2.0ライセンスのもとで公開されており、楽天の公式Hugging Faceリポジトリを通じて無料でダウンロード可能です。企業や研究機関、個人開発者もライセンスに基づいた範囲で自由に活用できます。

楽天はこれらの言語モデルの提供を通じて、日本語に特化した高度な自然言語処理技術の発展を支援し、ビジネスや学術分野におけるAIの利活用を促進していく考えです。

Python基礎・実践(Django)

企業・法人向けのPython研修では、基礎から応用まで体系的に学べます。

Python研修の詳細

DX社員研修

企業・法人向けのDX研修では、実務に繋がるリスキリングでITレベルを向上させます。

DX研修の詳細

Javaエンジニア育成研修

企業・法人向けのJavaエンジニア育成研修では、Javaの基礎から応用まで確実に習得できます。

Java研修の詳細

新卒・新入社員向け研修

企業・法人に新入社員・新卒社員に向けたプログラミング研修を提供しています。

新入社員研修の詳細

コードキャンプのIT研修を全て見る

Rakuten AI 2.0の特徴

楽天が提供する最新のAIモデル「Rakuten AI 2.0」は、日本語に最適化された高性能な言語モデルです。最先端のアーキテクチャと革新的なチューニング手法を採用し、効率的かつ高精度なテキスト生成を可能にしています。

高度なMixture of Experts（MoE）アーキテクチャ

本モデルは8つの70億パラメータを持つ「エキスパート」サブモデルで構成されています。タスクに応じて最適なエキスパートが選択されることで、高精度な推論を実現します。

軽量かつ高性能な小規模モデル「Rakuten AI 2.0 mini」

15億パラメータを持つ小規模モデルも提供されており、リソース効率を重視しながら高品質な日本語処理が可能です。

SimPOによる最適化

最新の「Simple Preference Optimization（SimPO）」手法を活用し、よりシンプルかつ効率的にモデルをチューニング。従来手法と比較して安定性が向上し、実用的なパフォーマンスを実現しています。

最高水準の日本語性能

日本語版MT-Benchの評価において、同規模の他のオープンモデルを上回るスコアを記録。高い対話能力と指示追従能力を発揮します。

オープンソースでの提供

Apache 2.0ライセンスのもと楽天の公式Hugging Faceリポジトリで公開されており、企業や開発者が自由に利用・カスタマイズ可能です。

「Rakuten AI 2.0」はこれらの特徴を活かし、幅広い分野での活用が期待されています。

Rakuten AI・ChatGPT・Claudeの違い

Rakuten AI 2.0は日本語に最適化されており、特に指示追従（インストラクションチューニング）や対話性能の向上に注力されています。

一方で、ChatGPT（GPT-4）やClaude（Claude 3）はより大規模なパラメータ数を持ち、多言語対応や汎用的な知識・推論能力に強みがあります。

パラメータ数とアーキテクチャ	Rakuten AI 2.0： 8×7B（最大560億パラメータ未満）のMixture of Experts（MoE）構造。日本語に特化。 ChatGPT（GPT-4）：非公開だが1兆パラメータ級と推測されている。多言語対応が強み。 Claude 3：非公開だが推論や創造的なテキスト生成に優れ、長文の処理が得意。
日本語最適化	Rakuten AI 2.0：日本語データを重点的に学習し、日本語の対話能力に特化。日本語版MT-Benchで高スコア。 ChatGPT & Claude：日本語対応は優秀だが英語中心の学習であり、日本語のニュアンスが異なる場合も。
利用可能性	Rakuten AI 2.0：オープンソースでHugging Faceから無料利用可能。 ChatGPT & Claude：商用サービスとして提供され、有料プランもあり。
用途の違い	Rakuten AI 2.0：日本語の指示追従やビジネス向けAI開発に適しており、カスタマイズ可能。 ChatGPT & Claude：多言語の知識活用や創造的な文章生成、幅広いタスク処理に強みがある。

結論としてRakuten AI 2.0 は日本語に特化し、商用利用しやすいオープンモデルです。対してChatGPTやClaudeは多言語対応や、幅広い知識・推論能力を活かした高度なAIという違いがあります。どのモデルが最適かは利用目的によって異なるでしょう。

Rakuten AI 2.0の使い方

今回はGoogle Colabを使い、Rakuten AI 2.0を楽天の公式Hugging Faceリポジトリからダウンロードして使う方法について解説します。また、Google Colabの無料版だと容量に限りがあるので、今回は軽量版であるRakuten AI 2.0 miniの使い方を例に解説します。

はじめにGoogle Colabを開き、「ノートブックを新規作成」をクリックします。

Google Colabより

ノートブックを作成したら、画面ジョブのヘッダーから「ランタイム」をクリックし「ランタイムのタイプを変更」をクリックしてください。すると上記画面が表示されるので、ハードウェアアクセラレータを「T4 GPU」へ選択して「保存」をクリックしましょう。

この作業によりGoogle ColabでGPUを利用できるようになります。

Google Colabより

GPU設定のあとは、ソースコードの入力欄に下記サンプルコードを指定してください。

【サンプルコード】
!pip install -U transformers torch accelerate sentencepiece bitsandbytes

このコードはPythonのパッケージ管理ツール「pip」を使って、機械学習と自然言語処理（NLP）に関連するライブラリを最新バージョンにアップデートしながらインストールするコマンドです。

各ライブラリの役割

transformers：Hugging Faceのライブラリで、大規模言語モデル（LLM）を簡単に扱うためのツールセット。
torch：PyTorchのこと。機械学習・ディープラーニングのフレームワーク。
accelerate：モデルの最適化や分散学習を簡単に行うためのHugging Face製ライブラリ。
sentencepiece：テキストをサブワード単位に分割するためのツール（BPEやUnigramモデルを使用）。
bitsandbytes：LLMの軽量化や効率的な学習・推論をサポートする量子化ライブラリ。

次にHugging Faceから楽天AIのモデルをインストールします。サンプルコードは下記の通りです。

【サンプルコード】
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# モデル名（最も軽量なRakuten AIモデル）
model_name = "Rakuten/RakutenAI-2.0-mini"

#トークナイザーのロード
tokenizer = AutoTokenizer.from_pretrained(model_name)

#モデルのロード
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,  # メモリ節約のためfloat16を使用
    device_map="auto"  # GPUがある場合は自動的にGPUを使用
)

#`pad_token_id` を `eos_token_id` に設定（警告を回避）
model.config.pad_token_id = model.config.eos_token_id

print("モデルのロード完了！")

もし「Rakuten AI 2.0」を利用したい場合は「model_name」を変更するだけでダウンロードできます。もしグラフィックボードを搭載したPCを持っている方はぜひ試してみて下さい。

これでRakuten AI 2.0 miniの利用環境は整いました。最後に下記のコードでプロンプトや生成するトークン数などを指定します。

【サンプルコード】
#AIに質問するテキスト
input_text = "RakutenAIとChatGPT,Claudeだとどちらの方が高性能ですか？"

#トークナイズ（テキストを数値データに変換）
inputs = tokenizer(
    input_text,
    return_tensors="pt",
    padding=True,
    truncation=True,
    max_length=512  # 512トークン以上の長さを防ぐ
)

#入力データをモデルのデバイス（GPU/CPU）に移動
inputs = {key: value.to(model.device) for key, value in inputs.items()}

#応答の生成
with torch.no_grad():
    output = model.generate(
        **inputs,
        max_new_tokens=500,  # 生成する最大トークン数
        pad_token_id=model.config.pad_token_id,  # パディングトークンを指定
        temperature=0.7,  # 創造性の調整（0.7がバランスよい）
        top_p=0.9,  # 確率の高い単語を優先
        do_sample=True  # サンプリングを有効化
    )

#生成されたテキストをデコード
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

#結果を表示
print("【AIの回答】\n", generated_text)

「input_text」にプロンプトを入力し、その回答がpring関数にて出力される仕組みです。「max_new_tokens」はLLMが回答に利用できるトークン数を指しており、数値が多いほど文字数の多い回答を得られます。

今回入力した「Rakuten AIとChatGPT、Claudeだとどちらの方が高性能ですか？」というプロンプトを入力した結果、下記の回答が出力されました。