OpenAIがGPT-4oを発表、テキスト・音声・画像を統合した新たな言語モデル

公開：2024年5月14日更新：2024年5月14日

CodeCampが提供するDX人材育成が可能なプログラミングやITが学べる公開講座

【時間がない人向け】記事の3行要約
OpenAIが新たな言語モデルGPT-4oを発表
ChatGPTとAPIで順次利用可能に
徹底した安全性への取り組みを継続
trends編集部「K」の一言
References

【時間がない人向け】記事の3行要約

OpenAIがGPT-4oを発表、テキスト・音声・画像を統合した新しい言語モデル
GPT-4oはGPT-4 Turboレベルのテキスト性能に加え、音声や画像の理解力が大幅に向上
ChatGPTで利用可能、開発者向けAPIも提供開始、安全性への取り組みも強化

Python基礎・実践(Django)

企業・法人向けのPython研修では、基礎から応用まで体系的に学べます。

Python研修の詳細

DX社員研修

企業・法人向けのDX研修では、実務に繋がるリスキリングでITレベルを向上させます。

DX研修の詳細

Javaエンジニア育成研修

企業・法人向けのJavaエンジニア育成研修では、Javaの基礎から応用まで確実に習得できます。

Java研修の詳細

新卒・新入社員向け研修

企業・法人に新入社員・新卒社員に向けたプログラミング研修を提供しています。

新入社員研修の詳細

コードキャンプのIT研修を全て見る

OpenAIが新たな言語モデルGPT-4oを発表

OpenAIは2024年5月13日、GPT-4oと名付けられた新しいフラッグシップモデルを発表。GPT-4oはテキスト、音声、画像をリアルタイムで統合処理できる画期的な言語モデルだ。^[1]

GPT-4oは英語とコードにおいてGPT-4 Turboレベルの性能を発揮しつつ、非英語テキストの処理能力が大幅に向上している。さらに、APIでの利用料金はGPT-4 Turboの半額に抑えられた。

特に注目すべきは、GPT-4oの卓越したビジョンと音声の理解力だ。既存のモデルと比較して、画像や音声からの情報抽出や解釈の精度が飛躍的に高まっており、自然な対話を可能にする技術的なブレイクスルーと言えるだろう。

ChatGPTとAPIで順次利用可能に

GPT-4oのテキストと画像処理機能は、すでにChatGPTで利用可能となっている。無料版とPlusユーザーの両方で提供され、Plusユーザーはメッセージ上限が5倍に引き上げられた。

GPT-4oを搭載した新しいVoice ModeがChatGPT Plusのアルファ版としてリリースされる予定で、数週間以内には音声による自然な対話を体験できるようになるだろう。

開発者向けには、APIを通じてGPT-4oのテキストとビジョンモデルが提供開始された。GPT-4 Turboと比べ、2倍の速度と5倍の利用上限を半額で利用できる。パートナー企業への音声・映像機能の提供も近日中に予定されているとのこと。

おすすめのPython研修一覧

Python研修を提供しているおすすめの企業・法人を一覧で掲載しております。

Python研修の一覧を見る

おすすめのDX研修一覧

DX研修を提供しているおすすめの企業・法人を一覧で掲載しております。

DX研修の一覧を見る

おすすめのJava研修一覧

Java研修を提供しているおすすめの企業・法人を一覧で掲載しております。

Java研修の一覧を見る

おすすめのJavaScript研修一覧

JavaScript研修を提供しているおすすめの企業・法人を一覧で掲載しております。

JavaScript研修の一覧を見る

徹底した安全性への取り組みを継続

GPT-4oは設計段階からセーフティを重視し、モダリティ横断的な安全システムを組み込んでいる。voice outputに対するガードレールなど、新たな安全対策も導入された。

準備フレームワークに基づく評価やレッドチームテストを通じ、GPT-4oのリスクを網羅的に分析している。

音声モダリティに伴う新たなリスクについては認識しており、段階的なローンチを通じて慎重に対処していくようだ。オープンソースコミュニティとユーザー企業の協力を得ながら、GPT-4oの安全性を継続的に高めていくことが非常に重要であり、ベストプラクティスの確立と体制整備を通じたサイバー空間の信頼向上が期待される。