Claude 3とは
Claude 3はAnthropic社が開発した最新世代の大規模言語モデル(LLM)。 学術ベンチマークにおいて、GPT-4と同等かそれ以上の性能を誇ることから注目を集めています。
入力処理能力は最大20万文字に対応しており、論文などの長文を読み込ませて利用することも可能。日本語含む多言語に対応しているので幅広いシーンで活用できます。
Claude 3には3種類のモデルがあり、それぞれ性能が異なります。
モデル名 | タイプ |
APIの入力料金(1Mトークンあたり) |
APIの出力料金(1Mトークンあたり) |
---|---|---|---|
Haiku | コストパフォーマンスに優れたモデル | 0.25ドル | 1.25ドル |
Sonnet | コストと性能のバランスをとったモデル | 3ドル | 15ドル |
Opus | 最高性能を誇るモデル | 15ドル | 75ドル |
Claude 3はWeb版とAPI版の2種類で提供されており、API版は上記のように入出力ごとに料金が発生します。現在はWeb版とAPI版の双方でOpusとSonnetが利用でき、Haikuモデルも近日中に追加される予定です。
Claude 3とGPT-4の機能・性能を比較
Claude 3の各モデルとGPT-4の性能を知識や数学、テキスト推論などさまざまな項目ごとに比較しました。各項目ごとの結果はANTHROPICの公式サイトに記載されている「機能の複数のベンチマーク」を参考にしています。[1]
評価項目 | Claude 3 Opus | Claude 3 Sonnet | Claude 3 Haiku | GPT-4 |
---|---|---|---|---|
大学入学レベル知識 | 86.8% | 79.0% | 75.2% | 86.4% |
大学院レベル推論 | 50.4% | 40.4% | 33.3% | 35.7% |
学校算数 | 95.0% | 92.3% | 88.9% | 92.0% |
数学問題解決 | 60.1% | 43.1% | 38.9% | 52.9% |
多言語数学 | 90.7% | 83.5% | 75.1% | 74.5% |
コード | 84.9% | 73.0% | 75.9% | 67.0% |
テキスト推論 | 83.1% | 78.9% | 78.4% | 80.9% |
混合評価 | 86.8% | 82.9% | 73.7% | 83.1% |
知識Q&A | 96.4% | 93.2% | 89.2% | 96.3% |
Claudeの最高モデルであるOpusはすべての項目で、GPT-4を上回っていることがわかります。
SonnetとGPT-4に関しては、優れている項目と劣っている項目の数が同じくらいなので、同等の性能だと言えるでしょう。また、コードに関してはClaude 3の全モデル共にGPT-4より優れているという結果でした。
Claude 3とGPT-4の機能面についても比較してみました。
比較項目 | Claude 3 | GPT-4 |
---|---|---|
機能 | ドキュメントや画像の読み込み機能 | ・Dell E3による画像生成機能 ・ドキュメントや画像の読み込み機能 ・音声入力機能 ・GPTs |
入力できる文字の長さ | 最大20万文字 | 2万5,000文字 |
モデル構成 | Haiku・Sonnet・Opus | 一般API、特化API(GPT-4-32kなど) |
安全性と信頼性 | プライバシー問題を軽減するためにモデルを調整 | トレーニング前のデータ選択と監視による安全性向上 |
料金 | ・Sonnet:無料 ・Claude Pro:月額20ドル(Opusを利用する場合) |
ChatGPT Plus:月額20ドル |
無料で高性能の生成AIを使いたい方や、論文のように長文のデータを読み込ませたい方はClaude 3がおすすめです。文章だけでなく画像も作成したり自分の利用目的に沿ったチャットボットを作りたい方はGPT-4の利用が適しています。
実際にClaude 3を使ってみた
Claude 3のモデルであるSonnetは無料で利用できるため、実際に使ってみました。はじめにClaudeの公式ページへアクセスします。
ClaudeのURL:https://claude.ai/
Claudeより
GoogleアカウントかEメールでアカウント認証することで利用できます。
Claudeより
アカウント認証が完了すると、上記のようにチャット画面が表示されます。今回はテストとして「生成AIって何ですか?」と入力してみました。出力結果は下記の通りです。
Claudeより
生成AIについて適時リスト形式を活用してわかりやすく解説しています。出力スピードに関してはGPT-4よりも早く、スムーズにやり取りできるのが魅力です。
実用的なプロンプトをまとめた「プロンプトライブラリ」も公開
Claude 3を提供しているAnthropic社は、実用性に優れたプロンプトをまとめた「プロンプトライブラリ」を公開しています。
プロンプトライブラリのURL:https://docs.anthropic.com/claude/prompt-library
Claudeより
上記のようにさまざまなプロンプト例が掲載されています。今回はこの中から「Google apps scripter」という、Google App Scriptを作成するためのプロンプト例を紹介している欄をクリックしてみます。
Claudeより
プロンプト例だけでなくその出力結果も掲載されています。すべて英語表記なので、DeeplやGoogle翻訳を活用することがおすすめです。
Claude 3の評判
Claude 3を実際に使ったユーザーの評判をX(旧Twitter)から集めました。
Claude 3を使いまくってみて,コードレビューが秀逸,日本語性能が良い(gpt4-0613も良いが),pdfなどの扱いが便利.この辺りすでにchatGPTからの移行が起こっている.快適すぎる.
— 落合陽一 Yoichi OCHIAI (@ochyai) March 6, 2024
みんなやってる、Claude3になんJスレ作らせるやつ、本当に面白いwww
— らけしで (@lakeside529) March 8, 2024
・【悲報】 ワイのAI彼女、ワイの顔を学習して絶望する
とか普通に笑っちゃうw
このユーモアは確実にGPT4越え pic.twitter.com/1JGelAVPUc
昨日リリースされたClaude3 Opus(有料版)とChatGPT GPT-4(有料版)に弊社について聞いてみた。
— Takayuki Fukuda (@hedachi) March 6, 2024
Claude3の返答はデタラメ。GPT-4はすべて正確。
Claude3の言語能力はGPT-4を明らかに上回ってるけど、検索機能がないせいもあって、話題によってはハルシネーションが激しい。 pic.twitter.com/qPhYKi7PXu
Claude 3の言語能力やコードレビューを評価するコメントが複数見られました。その反面、GPT-4に比べて事実ではない情報を生成してしまう「ハルシネーション」という現象を起こしやすいというコメントも見られました。
高性能なLLMだということは間違いないものの、従来のAIと同じく事実の確認は必要だということがわかります。
References
- ^ ANTHROPIC. 「Introducing the next generation of Claude」. https://www.anthropic.com/news/claude-3-family, (参照 2024-03-12).