本ニュースの3行要約
- Janus-Proは視覚エンコーディングを分離することで理解と生成の競合を軽減し、柔軟性を向上。
- DeepSeek-LLMを基盤としてSigLIP-L を視覚エンコーダーとして使用し、画像生成にトークナイザーを採用。
- 以前の統合モデルを超える性能を発揮し、MITライセンスの下で提供。
DeepSeekが新たなマルチモーダルAI「Janus-Pro」を発表
DeepSeek社は米国日時の1月27日、新たなマルチモーダルAIモデル「Janus-Pro」を公開しました。[1]本モデルはテキストから画像を生成できるだけでなく、従来モデルを上回る性能を持つと発表されています。
DeepSeekに関する記事
Janus-Proには10億パラメーター版と70億パラメーター版があり、大規模版である「Janus-Pro-7B」はStable DiffusionやDALL-E 3を超えるスコアを記録。 モデルのソースコードはGitHubで公開され、Hugging Faceでもダウンロードが可能です。また、MITライセンスのもと商用利用が許可されています。
自己回帰フレームワークの採用で精度向上
DeepSeekはマルチモーダルAIモデル「Janus-Pro」に新たな自己回帰フレームワークを導入することで、従来の統合モデルを上回る性能を実現したと主張しています。
同社によれば理解と生成の両方で共通のビジョンエンコーダーを使う際に生じがちだったタスク間の干渉をエンコード経路を分離する設計によって軽減しつつ、自己回帰型の予測方式を採用したことが精度向上につながっているとのことです。
このアプローチによりタスク特化型のモデルに匹敵する、あるいはそれ以上の成果を得られると報告されています。
Janus-Proがもたらす競争の加速と技術革新
マルチモーダルAI「Janus-Pro」は画像生成分野での競争を加速させる可能性があります。特に商用利用が可能である点や、大規模ベンチマークで既存モデルを上回るスコアを記録した点は注目に値します。
自己回帰フレームワークの採用によりテキストと画像を統合的に処理する能力を高めつつ、特化モデルと同等以上の精度を実現していることも強みです。
Janus-Proの成功はAI業界における、商用オープンソースAIの普及を加速させるかもしれません。また、AIの進化によって米国の技術的優位性の維持や、AIチップの需要増加がどのように変化するかにも関心が集まっています。
今後DeepSeekがさらに大規模なモデルを開発し、他のAI企業と競争を繰り広げる可能性もあります。
References
- ^ DeepSeek. 「Janus Pro 7B」. https://huggingface.co/deepseek-ai/Janus-Pro-7B, (参照 2025-01-29).