Claude 3がGPT-4より高性能らしいので使ってみた。GPT-4との具体的な違いやSNSの評判など詳しく解説

公開：2024年3月12日更新：2024年4月24日

だーだい

フリーランスWebライター兼Web製作者。Webライターとしてガジェットメディアやプログラミングに関する記事を執筆する傍ら、LP制作とWordPressの改修案件もこなしつつ、活動しています。 profile

Claude 3とは

Claude 3はAnthropic社が開発した最新世代の大規模言語モデル（LLM）。学術ベンチマークにおいて、GPT-4と同等かそれ以上の性能を誇ることから注目を集めています。

入力処理能力は最大20万文字に対応しており、論文などの長文を読み込ませて利用することも可能。日本語含む多言語に対応しているので幅広いシーンで活用できます。

Claude 3には3種類のモデルがあり、それぞれ性能が異なります。

モデル名	タイプ	APIの入力料金（1Mトークンあたり）	APIの出力料金（1Mトークンあたり）
Haiku	コストパフォーマンスに優れたモデル	0.25ドル	1.25ドル
Sonnet	コストと性能のバランスをとったモデル	3ドル	15ドル
Opus	最高性能を誇るモデル	15ドル	75ドル

Claude 3はWeb版とAPI版の2種類で提供されており、API版は上記のように入出力ごとに料金が発生します。現在はWeb版とAPI版の双方でOpusとSonnetが利用でき、Haikuモデルも近日中に追加される予定です。

Claude 3とGPT-4の機能・性能を比較

Claude 3の各モデルとGPT-4の性能を知識や数学、テキスト推論などさまざまな項目ごとに比較しました。各項目ごとの結果はANTHROPICの公式サイトに記載されている「機能の複数のベンチマーク」を参考にしています。^[1]

評価項目	Claude 3 Opus	Claude 3 Sonnet	Claude 3 Haiku	GPT-4
大学入学レベル知識	86.8%	79.0%	75.2%	86.4%
大学院レベル推論	50.4%	40.4%	33.3%	35.7%
学校算数	95.0%	92.3%	88.9%	92.0%
数学問題解決	60.1%	43.1%	38.9%	52.9%
多言語数学	90.7%	83.5%	75.1%	74.5%
コード	84.9%	73.0%	75.9%	67.0%
テキスト推論	83.1%	78.9%	78.4%	80.9%
混合評価	86.8%	82.9%	73.7%	83.1%
知識Q&A	96.4%	93.2%	89.2%	96.3%

Claudeの最高モデルであるOpusはすべての項目で、GPT-4を上回っていることがわかります。

SonnetとGPT-4に関しては、優れている項目と劣っている項目の数が同じくらいなので、同等の性能だと言えるでしょう。また、コードに関してはClaude 3の全モデル共にGPT-4より優れているという結果でした。

Claude 3とGPT-4の機能面についても比較してみました。

比較項目	Claude 3	GPT-4
機能	ドキュメントや画像の読み込み機能	・Dell E3による画像生成機能・ドキュメントや画像の読み込み機能・音声入力機能・GPTs
入力できる文字の長さ	最大20万文字	2万5,000文字
モデル構成	Haiku・Sonnet・Opus	一般API、特化API（GPT-4-32kなど）
安全性と信頼性	プライバシー問題を軽減するためにモデルを調整	トレーニング前のデータ選択と監視による安全性向上
料金	・Sonnet：無料・Claude Pro：月額20ドル（Opusを利用する場合）	ChatGPT Plus：月額20ドル

無料で高性能の生成AIを使いたい方や、論文のように長文のデータを読み込ませたい方はClaude 3がおすすめです。文章だけでなく画像も作成したり自分の利用目的に沿ったチャットボットを作りたい方はGPT-4の利用が適しています。

実際にClaude 3を使ってみた

Claude 3のモデルであるSonnetは無料で利用できるため、実際に使ってみました。はじめにClaudeの公式ページへアクセスします。

ClaudeのURL：https://claude.ai/

Claudeより

GoogleアカウントかEメールでアカウント認証することで利用できます。

Claudeより

アカウント認証が完了すると、上記のようにチャット画面が表示されます。今回はテストとして「生成AIって何ですか？」と入力してみました。出力結果は下記の通りです。

Claudeより

生成AIについて適時リスト形式を活用してわかりやすく解説しています。出力スピードに関してはGPT-4よりも早く、スムーズにやり取りできるのが魅力です。

実用的なプロンプトをまとめた「プロンプトライブラリ」も公開

Claude 3を提供しているAnthropic社は、実用性に優れたプロンプトをまとめた「プロンプトライブラリ」を公開しています。

プロンプトライブラリのURL：https://docs.anthropic.com/claude/prompt-library

Claudeより

上記のようにさまざまなプロンプト例が掲載されています。今回はこの中から「Google apps scripter」という、Google App Scriptを作成するためのプロンプト例を紹介している欄をクリックしてみます。

Claudeより

プロンプト例だけでなくその出力結果も掲載されています。すべて英語表記なので、DeeplやGoogle翻訳を活用することがおすすめです。

Claude 3の評判

Claude 3を実際に使ったユーザーの評判をX（旧Twitter）から集めました。

Claude 3を使いまくってみて，コードレビューが秀逸，日本語性能が良い（gpt4-0613も良いが），pdfなどの扱いが便利．この辺りすでにchatGPTからの移行が起こっている．快適すぎる．
— 落合陽一 Yoichi OCHIAI (@ochyai) March 6, 2024

みんなやってる、Claude3になんJスレ作らせるやつ、本当に面白いwww

・【悲報】ワイのAI彼女、ワイの顔を学習して絶望する

とか普通に笑っちゃうw

このユーモアは確実にGPT4越え pic.twitter.com/1JGelAVPUc
— らけしで (@lakeside529) March 8, 2024

昨日リリースされたClaude3 Opus（有料版）とChatGPT GPT-4（有料版）に弊社について聞いてみた。
Claude3の返答はデタラメ。GPT-4はすべて正確。
Claude3の言語能力はGPT-4を明らかに上回ってるけど、検索機能がないせいもあって、話題によってはハルシネーションが激しい。 pic.twitter.com/qPhYKi7PXu
— Takayuki Fukuda (@hedachi) March 6, 2024

Claude 3の言語能力やコードレビューを評価するコメントが複数見られました。その反面、GPT-4に比べて事実ではない情報を生成してしまう「ハルシネーション」という現象を起こしやすいというコメントも見られました。

高性能なLLMだということは間違いないものの、従来のAIと同じく事実の確認は必要だということがわかります。