Metaは2024年7月29日、画像と動画の統合セグメンテーションモデル「SAM 2（Segment Anything Model 2）」を発表した。SAM 2は、昨年リリースされた画像向けSAMの後継モデルであり、リアルタイムでプロンプト可能なオブジェクトセグメンテーション機能を画像と動画の両方に提供する。最先端の性能を実現し、以前に見たことのないオブジェクトや視覚領域でも機能する。^[1]

MetaはSAM 2のコードとモデルの重みをApache 2.0ライセンスで公開し、誰でも自由に利用できるようにした。また、約51,000の実世界の動画と60万以上のマスクレット（時空間マスク）を含むSA-Vデータセットも公開している。このオープンサイエンスアプローチにより、AIコミュニティ全体での研究と応用の促進が期待される。

SAM 2は、生成的動画モデルと組み合わせて新しい動画効果を作成したり、新しいクリエイティブアプリケーションを実現したりするなど、多くの潜在的な実世界アプリケーションを持っている。また、視覚データの高速アノテーションツールとしても活用でき、より優れたコンピュータビジョンシステムの構築に貢献する可能性がある。

	SAM 2の特徴	ライセンス	データセット	応用分野
主な特徴	画像・動画統合セグメンテーション	Apache 2.0	SA-V	動画効果、アノテーション
性能	最先端の精度	オープンソース	51,000動画、60万マスクレット	クリエイティブアプリケーション
対応範囲	未知のオブジェクト・領域にも対応	自由に利用可能	実世界データ	コンピュータビジョン研究

マスクレットについて

マスクレットとは、時空間マスクのことを指しており、主な特徴として以下のような点が挙げられる。

動画内のオブジェクトの時間的・空間的な位置を示す
オブジェクトの動きや変形を追跡可能
セグメンテーションタスクの基本単位として機能

マスクレットは、動画内のオブジェクトをフレームごとに追跡し、そのオブジェクトの形状や位置の変化を時間軸に沿って表現する手法である。これにより、動画内のオブジェクトの動きや変形、消失、再出現などの複雑な挙動を正確に捉えることが可能となる。SAM 2のような高度なセグメンテーションモデルでは、このマスクレットを利用することで、動画全体を通じて一貫性のあるオブジェクト認識と追跡を実現している。

おすすめのPython研修一覧

Python研修を提供しているおすすめの企業・法人を一覧で掲載しております。

Python研修の一覧を見る

おすすめのDX研修一覧

DX研修を提供しているおすすめの企業・法人を一覧で掲載しております。

DX研修の一覧を見る

おすすめのJava研修一覧

Java研修を提供しているおすすめの企業・法人を一覧で掲載しております。

Java研修の一覧を見る

おすすめのJavaScript研修一覧

JavaScript研修を提供しているおすすめの企業・法人を一覧で掲載しております。

JavaScript研修の一覧を見る

trends編集部「K」の一言

SAM 2の登場により、動画編集や視覚効果の分野に革新的な変化がもたらされる可能性がある。リアルタイムでのオブジェクトセグメンテーションが可能になることで、動画制作のワークフローが大幅に効率化されるだろう。しかし、高度な処理能力が要求されるため、一般ユーザーが利用できるハードウェアの普及には時間がかかる可能性がある。

今後、SAM 2の機能をさらに拡張し、3D空間でのセグメンテーションや、より長時間の動画に対する安定したパフォーマンスの提供が期待される。また、プライバシーの観点から、個人を特定できる情報を自動的にマスキングする機能なども重要になってくるだろう。AIの倫理的な利用と、技術の進歩のバランスを取ることが、SAM 2の更なる発展には不可欠となる。

SAM 2の公開は、オープンサイエンスの重要性を改めて示している。この技術を基盤として、多様な分野での応用研究が進むことが期待される。医療画像診断や自動運転、環境モニタリングなど、社会的インパクトの大きい領域での活用が進めば、AIがより身近で有用なものになっていくだろう。一方で、技術の民主化に伴う悪用リスクにも注意を払う必要がある。

※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。