xAIは2024年8月13日、独自の言語モデル「Grok-2」および「Grok-2 mini」のベータ版をリリースした。Grok-2は前モデルのGrok-1.5から大幅に進化し、チャット、コーディング、推論などの分野で最先端の能力を発揮する。𝕏プラットフォームのユーザーに向けて公開され、企業向けAPIも今月後半に提供される予定だ。^[1]

Grok-2は、LMSYSのチャットボットアリーナで「sus-column-r」という名前でテストされ、Claude 3.5 SonnetやGPT-4-Turboを上回る総合Eloスコアを記録した。内部評価では、AIチューターがさまざまなタスクでGrokと対話し、指示の遵守と正確な情報提供の能力を評価している。

ベンチマークテストでは、Grok-2とGrok-2 miniともに前モデルから大幅な性能向上を示している。大学院レベルの科学知識（GPQA）、一般知識（MMLU、MMLU-Pro）、数学コンペ問題（MATH）などの分野で他の最先端モデルと競争力のある性能を達成した。特にGrok-2は視覚ベースのタスクで優れており、視覚的数学推論（MathVista）や文書ベースの質問応答（DocVQA）で最高水準の性能を発揮している。

Grok-2とGrok-2 miniの性能比較まとめ

	Grok-1.5	Grok-2 mini	Grok-2	GPT-4 Turbo	Claude 3.5 Sonnet
GPQA	35.9%	51.0%	56.0%	48.0%	59.6%
MMLU	81.3%	86.2%	87.5%	86.5%	88.3%
MMLU-Pro	51.0%	72.0%	75.5%	63.7%	76.1%
MATH	50.6%	73.0%	76.1%	72.6%	71.1%
HumanEval	74.1%	85.7%	88.4%	87.1%	92.0%

おすすめのPython研修一覧

Python研修を提供しているおすすめの企業・法人を一覧で掲載しております。

Python研修の一覧を見る

おすすめのDX研修一覧

DX研修を提供しているおすすめの企業・法人を一覧で掲載しております。

DX研修の一覧を見る

おすすめのJava研修一覧

Java研修を提供しているおすすめの企業・法人を一覧で掲載しております。

Java研修の一覧を見る

おすすめのJavaScript研修一覧

JavaScript研修を提供しているおすすめの企業・法人を一覧で掲載しております。

JavaScript研修の一覧を見る

trends編集部「K」の一言

Grok-2とGrok-2 miniのリリースは、xAIの技術力と野心を示す重要な一歩だ。特にGrok-2がLMSYSチャットボットアリーナでGPT-4-TurboやClaude 3.5 Sonnetを上回る性能を示したことは、AIの競争激化を象徴している。これにより、AIモデルの性能向上競争がさらに加速し、ユーザーにとってより高度なAIサービスが利用可能になるだろう。

一方で、AIモデルの急速な進化は倫理的な問題や社会的影響への懸念も引き起こす。xAIには、Grok-2の能力を責任ある方法で活用し、潜在的なリスクを最小限に抑える取り組みが求められる。また、AIの発展に伴う雇用への影響や、AIへの過度の依存といった課題にも社会全体で取り組む必要がある。

今後、xAIがGrok-2をどのように発展させていくかが注目される。特に、マルチモーダル理解機能の追加や、𝕏プラットフォームでのAI駆動機能の拡張など、新たな機能の実装が期待される。同時に、他のAI企業との差別化戦略や、Grok-2の独自性を活かしたビジネスモデルの構築も重要な課題となるだろう。