
Gemini 2.0 Flashの画像生成機能が、新しい画像生成モデル「Gemini 2.5 Flash Image」にアップグレードされました。
本モデルは被写体をそのまま固定して背景や色調を変更したり、物理法則に則った影の表現やカメラアングルを変更できるのが特徴。リリース前のテスト段階時は「Nano Banana」というコードネームで使用されており、現在もそのままの通称として呼ばれています。
Gemini 2.5 Flash Imageは任意の場所を固定した状態で編集できることから、画像生成だけでなくプロンプトを通した編集能力の高さでも話題を集めています。
そこで今回は、Gemini 2.5 Flash Imageの概要やできること、簡単な使い方について解説します。
また、同じく高品質な画像を作れることで話題となったChatGPTの画像生成機能と比べて、どのような違いがあるのか検証しているので、画像生成AI選びに迷っている方は是非チェックしてみてください。
Gemini 2.5 Flash Image(nano-banana)の概要
Gemini 2.5 Flash Imageは、Googleが提供する最新の画像生成・編集モデルです。前バージョン「Gemini 2.0 Flash」で好評だった低遅延やコスト効率の良さを受け継ぎつつ、より高品質な出力と高度な制御機能を実現しました。

Geminiより
上記のように、画像生成AIモデルはブラウザ版やアプリの「Gemini」にて「Gemini 2.5 Flash」を指定することで利用できます。ほかにも、Google AI StudioやGemini API、企業向けとしてVertex AIを通じて利用することも可能です。
API経由で利用する場合、料金は100万トークンあたり30ドルで、1枚あたり約0.039ドルとリーズナブルに設定されているのが魅力。大規模な開発やサービス展開にも適しています。
また、生成されたすべての画像には不可視のデジタル透かし「SynthID」が埋め込まれており、AI生成コンテンツであることを識別できる仕組みが備わっています。
Gemini 2.5 Flash Image(nano-banana)でできること
Gemini 2.5 Flash Imageでできるようになったことは以下の通りです。
キャラクターやブランド素材の一貫性維持
同じキャラクターを異なる背景やシーンに登場させたり、統一感のあるブランド素材を生成できる。
自然言語による精密な画像編集
背景のぼかしや不要物の削除、被写体のポーズ変更、モノクロ写真のカラー化など細かい編集を自然な指示に対応。
世界知識とマルチ画像融合
教育用の図解を理解して説明に変換したり、複数の画像を組み合わせてリアルな合成写真を作成できます。さらに、Google AI Studioを使って簡単にアプリやサービスを構築することも可能です。
このようにGemini 2.5 Flash Imageを使うことで、従来の画像生成を超えた高度な編集・合成が手軽に実現可能。アイデアを自然な言葉で指示するだけで、キャラクターの統一表現から細やかな修正、複数画像の融合まで幅広く対応できます。
開発者やクリエイターにとって、これまで以上に柔軟で創造的な表現を可能にする新しいツールとなるでしょう。
Gemini 2.5 Flash ImageとChatGPT 4o Image Generationの画像生成機能を徹底比較
Gemini 2.5 Flash Imageの登場と同じように、今年の3月25日には「GPT-4o」にネイティブな画像生成機能「4o Image Generation」が統合され、高品質な画像を生成できることが話題となりました。

そこで今回は、ChatGPTの4o Image GenerationとGemini 2.5 Flash Imageで同じプロンプトを実行し、どのような違いがあるのか比較してみます。
プロンプト通りの画像を作れるのか比較
プロンプト
古い石畳の広場で、満面の笑みでジャンプしている若い女性。片手には風船を持ち、もう片方の手は空に向かって伸ばしている。背景には活気ある市場が広がっている。写真のようにリアルに。
実行結果

ChatGPT・Geminiより
ChatGPT・Geminiのいずれも指示に沿った画像を生成できています。
被写体を変えずに背景だけ変更できるのか比較
プロンプト
背景を崖にしてください。
実行結果

ChatGPT・Geminiより
Gemini 2.5 Flash Imageの方は全く変わっていませんが、ChatGPT 4o Image Generationの方は風船の数が増えていますね。被写体を全く変えないで特定部分だけ変えるという側面では、Gemini 2.5 Flash Imageの方が優れているように感じます。
被写体をそのままに洋服だけ変えられるのか比較
プロンプト
服装をスーツに変えてください。
実行結果

ChatGPT・Geminiより
こちらは双方とも問題なくできています。
洋服の元画像に差し替えられるのか比較
次は、以下の洋服画像をそれぞれの生成AIにアップロードし、この服に着替えられるのか比較してみます。

ChatGPT・Geminiより
プロンプト
読み込んだ洋服に着替えさせてみて下さい。
実行結果

ChatGPT・Geminiより
どちらも問題なく洋服を変更できています。
カメラアングルを変えられるのか比較
プロンプト
ズームアウトしてください。
実行結果

ChatGPT・Geminiより
Gemini 2.5 Flash Imageだと指示通りズームアウト(カメラを引いた状態)の画像が生成できました。一方、ChatGPTの4o Image Generationでは元の画像と変わりません。
今度は別アングルのプロンプトで試してみます。
プロンプト
ハイアングルにしてください。
実行結果

ChatGPT・Geminiより
カメラアングルを変えた画像生成については、Gemini 2.5 Flash Imageの方が優れているようですね。
構造化プロンプトの沿った画像を作れるのか比較
最後に、プロンプトでテキストや被写体、デザインを指定してサムネイル画像を作れるのか比較してみます。
【プロンプト】
# --------------- 全体設定 ---------------
キャンバス:
幅: 1980
高さ: 1280
padding: "60px 40px 60px 60px"
背景色: "#e0f7fa"から"#ffffff"へのグラデーション
スタイル: "フラットデザイン"
# --------------- 装飾ストライプ ---------------
ストライプ群:
- 幅: 90px
色: "#E8FFF4"
角度: 6deg
位置:
X: 65%
Y: 0%
高さ: 120%
- 幅: 90px
色: "#FFFFFF"
角度: 6deg
位置:
X: 71%
Y: 0%
高さ: 120%
- 幅: 90px
色: "#B3DCFF"
角度: 6deg
位置:
X: 77%
Y: 0%
高さ: 120%
# --------------- テキストブロック ---------------
タイトル:
行: "AIで副業を始めよう"
フォントサイズ: 148px
フォントカラー: "#004B80"
行間: 0.9
ウェイト: 700
位置:
基準: "左上"
X: 0px
Y: 40px
サブタイトル:
行1: "初心者でも安心の"
行2: "入門講座"
フォントサイズ: 60px
フォントカラー: "#FFFFFF"
背景ボックス:
塗り色: "#FFC400"
角丸: 4px
余白上下: 14px
余白左右: 28px
行間: 1.0
ウェイト: 700
位置:
基準: "左下タイトル"
オフセットY: 40px
# --------------- 被写体(人物写真) ---------------
被写体:
スタイル:実写の女性
種類: "若いビジネスウーマン"
表情: "穏やかな笑顔"
ポーズ:
手: "右手の人差し指を立てる"
小道具: "左手にスマートフォン"
衣装: "黒のテーラードジャケット、白インナー"
髪型: "肩上のボブ、ダークブラウン"
配置:
基準: "右上"
高さ占有率: 80%
オフセットX: -20px
オフセットY: 0px
# --------------- フッター(Footer) ---------------
内容: "お問い合わせはこちらから"
フォントスタイル: "太字"
フォントサイズ: "中"
文字色:
- "通常部分は白"
- "「こちら」は黄色で強調"
背景色: "ダークブルー"
配置位置: "左下"
高さ:"150px"
実行結果

ChatGPT・Geminiより
背景デザインや被写体のクオリティは遜色ありませんが、日本語の精度や文字情報の配置においては、ChatGPTの4o Image Generationの方が優れているようです。
Gemini 2.5 Flash ImageとChatGPT 4o Image Generationを比較した結果まとめ
ChatGPT 4o Image Generationと、Gemini 2.5 Flash Imageを比較したところ、以下の結果になりました。
比較項目 | ChatGPT 4o Image Generation | Gemini 2.5 Flash Image |
---|---|---|
プロンプト通りの生成 | 指示通り生成可能 | 指示通り生成可能 |
背景変更(被写体維持) | 風船の数が増えるなど 被写体も一部変化 |
被写体を変えずに背景のみ 変更可能 |
服装変更 | 指示通り生成可能 | 指示通り生成可能 |
元画像の洋服差し替え | 指示通り生成可能 | 指示通り生成可能 |
カメラアングル変更 | ズームアウトできずアングル変更も弱い | 指示通りに対応可能 |
構造化プロンプト対応 | 背景や被写体、文字配置の精度が高く 日本語処理が優秀 |
背景・被写体のクオリティは高いが 日本語文字配置は弱い |
ChatGPT 4o Image Generationは日本語テキストや構造化プロンプトの精度に強みがあり、サムネイルや資料向けのデザイン制作に適しています。
一方で、Gemini 2.5 Flash Imageは被写体を崩さず、背景やカメラアングルを自在に変えられるのが特徴。写真の編集や部分的な修正に向いているといえます。
用途や目的に応じて両者を使い分けることで、より効果的に画像生成を活用できるでしょう。