【時間がない人向け】記事の要約
- AI Picassoが画像生成AI開発用データを公開
- 約1000万個のデータを無償で提供
- 著作権に配慮した2種類のデータセットを公開
AI Picassoによる著作権配慮型画像生成AIデータセットの公開
AI Picasso社は2024年7月31日、著作権に配慮した画像生成AI開発用データ約1000万個を無償公開した。公開されたデータセットは「megalith-10m-florence2」と「soa-full-florence2」の2種類であり、いずれもCreative Commonsライセンスに基づいた画像を利用している。[1]
これらのデータセットは、画像生成AIの開発に携わる研究者や開発者にとって貴重なリソースとなる。
「megalith-10m-florence2」は、CC-0相当の写真画像約1000万枚に対する説明文データセットだ。一方「soa-full-florence2」は、CC-0だけで構成された約300万枚の絵画などのテキスト画像データセットとなっている。両データセットともFlorence-2というマルチモーダルモデルを使用してキャプションづけがなされており、ライセンス上の制限なく利用可能である。
AI Picasso社はこれらのデータセットを公開することで、クリエイターとの協力のもとでAI技術の発展を目指している。
同社が開発中のCommonArtという日英画像生成モデルは、これらのデータセットを活用して作られたものだ。今回のデータセット公開が、AI技術の発展と著作権問題の解決の一助となることが期待される。
AI Picassoが公開した画像生成AI開発用データセットの概要
megalith-10m-florence2 | soa-full-florence2 | |
---|---|---|
データ種類 | CC-0相当の写真画像に対する説明文 | CC-0で構成された絵画などのテキスト画像 |
画像数 | 約1000万枚 | 約300万枚 |
キャプションモデル | Florence-2 | Florence-2 |
主な用途 | テキストからの画像生成、視覚言語モデルの開発 | 教育、練習 |
特徴 | 入念な下処理済み、著作権侵害の心配なし | 著作権が切れた画像のみで構成 |
trends編集部「K」の一言
AI Picassoによる著作権に配慮した大規模データセットの公開は、AI開発における重要な課題の一つに解決策を提示している。
画像生成AIの開発では、大量の画像データが必要となるが、著作権の問題が常に付きまとう。これらのデータセットを利用することで、開発者は法的リスクを最小限に抑えながら、高品質なAIモデルの開発に取り組むことができるようになるだろう。
今後、これらのデータセットを活用した新たな画像生成AIの登場が期待される。特に、芸術作品や歴史的な画像を含む「soa-full-florence2」は、教育や文化財のデジタル保存といった分野での応用が考えられる。
また、「megalith-10m-florence2」を用いた視覚言語モデルの開発は、画像認識技術の更なる進化をもたらす可能性がある。
一方で、これらのデータセットの品質や多様性に関する検証も重要となるだろう。大規模なデータセットであっても、偏りや不適切なコンテンツが含まれている可能性は否定できない。AI Picasso社には、継続的なデータの品質管理と、必要に応じてデータセットの更新を行うことが求められる。
また、このような取り組みが他の企業や研究機関にも広がり、オープンなAI開発エコシステムが形成されることを期待したい。
References
- ^ Note. 「著作権に配慮した画像生成AI開発用データ約1000万個を無償公開|AI Picasso」. https://note.com/aipicasso/n/n97ce9a979ef7, (参照 24-08-06).
※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。