AIノウハウ

【Google I/O 2026】Gemini 3.5 Flashで進化!画像生成の「怪しい日本語」が消えて実用レベルに

アフィリエイト広告を使用する場合がございます。あらかじめご了承ください。

こんにちは。生成AIで画像を作ったときに、背景の看板の日本語が謎の古代文字みたいになってガッカリ──そんな経験、一度はあるのではないでしょうか。これまで軽量・高速モデルの画像生成では、日本語が崩れるのは半ば「仕方ないもの」とされてきました。

ところが、Google I/O 2026のGemini 3.5 Flash発表で、状況がちょいと変わりました。Proモデルでは前から綺麗に出ていた日本語が、ついにFlash系の高速モデルでも結構バシッと描けるようになったのです。今回はこの流れを、時系列で整理してみます。

2026年5月、Google I/Oで発表された注目アップデート

5月19日(米国時間)に開催されたGoogle I/O 2026では、Geminiまわりの発表が大量に飛び出しました。

主な発表を見渡すと、最新の言語モデル「Gemini 3.5 Flash」、動画生成系の「Gemini Omni Flash」、AIエージェント機能の「Gemini Spark」、Android XRスマートグラスなど、AIが日常に溶け込んでいく方向性がはっきり打ち出された内容でした。

そのなかでも、私たちフリーライターや一般ユーザーがすぐに恩恵を受けられるのが、メインの言語モデル「Gemini 3.5 Flash」のリリースです。

Gemini 3.5 Flashは何が新しいか

Gemini 3.5 Flashの目玉は、Flashシリーズらしい速さと低コストを保ったまま、知能面でも先代のPro(3.1 Pro)を上回るベンチマーク結果を出している点です。コーディング、エージェント、マルチモーダル理解の各領域でスコアが伸びているとGoogleは発表しています。

これまでのFlashモデルは「速いけれど、込み入った処理ではProに一歩譲る」という位置づけでした。ところが3.5世代では、画像生成パイプラインの裏側も含めて全体的にアップデートされ、Flashモデル単体でも実用に耐えるクオリティを出せるようになっています。

Gemini 3.5 FlashはGeminiアプリ、Google検索のAI Mode、Gemini API、Antigravity 2.0などで順次展開中とのこと。Geminiアプリを普段使いしている人は、すでに切り替わっていることに気づいていないかもしれません。

画像内テキストの進化は「2月のNano Banana 2」から始まっていた

ここで一度、画像生成側の流れを整理しておきます。Googleの画像生成モデルは2025年から「Nano Banana」というシリーズで進化しています。

  • 2025年8月:Nano Banana(Gemini 2.5 Flash Image)
  • 2025年11月:Nano Banana Pro(Gemini 3 Pro Image)
  • 2026年2月:Nano Banana 2(Gemini 3.1 Flash Image)

Pro系統では、2025年11月のNano Banana Proの時点ですでに、多言語の文字を画像内に綺麗に描き込めるレベルに到達していました。一方でFlash系統は、速度と低コストを優先するため、文字描画のクオリティではPro系統に一歩譲る状態が続きます。

この差を埋めたのが、2026年2月にリリースされたNano Banana 2(Gemini 3.1 Flash Image)です。Googleは「Pro級のクオリティをFlashのスピードで」と謳っており、画像内テキストの精度が大きく改善されました。日本語を含む多言語のテキストを、画像のなかにクッキリ描き込めるようになっています。

そしてGoogle I/O 2026では、Gemini 3.5 Flashが各サービスのデフォルト級のモデルとして広く展開されました。これによって、Nano Banana 2世代の高精度な文字描画が、特別な設定なしに普通の使い方で手に入る環境が整った──というのが、ここ数か月の経緯です。

実際に作ってみた画像がこちら

「本当にそんなに綺麗に書けるの?」と思いますよね。百聞は一見にしかず、「赤羽のせんべろ商店街で楽しくはしご酒をしているお父さん」というお題でイラストを作ってもらいました。

注目してほしいのは、背景のあちこちに見える文字の正確さです。

中央の大きな看板には「赤羽せんべろ商店街」とクッキリ描かれています。周囲を見渡すと、「立ち飲み」「一番街」「焼き鳥」「はしご酒」「生ビール」といった文字が、何ひとつ崩れることなく完璧な日本語として読めます。極めつけは右上の提灯にある「千円でベロベロ」(まさにせんべろ!)の文字。

これまでのモデルなら、高確率で「赤羽」が謎の記号になったり、「焼き鳥」が不思議な象形文字になっていたところです。今回のモデルではフォントのデザイン(看板の木目調や、提灯の丸文字など)まで描き分けられていて、そのままブログのアイキャッチや資料の挿絵として使えそうな仕上がりになっています。

【追加検証】FlashとProで同じプロンプトを試してみた

ここまでで「Flashモデルでも日本語がしっかり描ける」ことは伝わったと思いますが、欲が出てきました。「では、上位モデルのProとどのくらい差が出るのか?」も気になります。

そこで、同じプロンプトをGemini 3.5 Flash(Nano Banana 2相当)とGemini 3 Pro(Nano Banana Pro相当)の両方に投げて、結果を比較してみました。難易度や条件の違うお題を3つ試しています。

ケース1:和菓子店のメニュー──短い縦書き日本語

最初のお題は、初夏の和菓子店です。日本語のメニュー表記、漢数字の価格、和菓子の質感、和室と庭園の構造……と、AIにとって難しい要素を盛り込んだ欲張りな構成にしました。

16:9の横長画像を生成してください。

【シーン】
日本の伝統的な和菓子店の店内から、縁側越しに庭園を望むアングル。
6月の晴れた午前中、柔らかな自然光が室内に差し込んでいる。

【手前の和室】
畳敷きの和室に、木製の低い座卓が一つ。
座卓の上には以下を配置:
- 透明なガラスの器に入った水ようかん(艶のある深い小豆色、上に金箔をひとつまみ)
- 涼しげな切子グラスに入った冷たい緑茶(氷が見える)
- 朱色の小皿に乗った白い葛饅頭、もう一皿には桜色の練り切り
- 竹製の黒文字(菓子楊枝)
- 麻のランチョンマット

座卓の手前には、A6サイズほどの小さな縦長メニュー表が一枚立てかけられている。
メニューは生成りの和紙風の素材で、毛筆体の日本語で以下が読めるように書かれている:

「本日の甘味
水ようかん 六百円
葛饅頭 五百円
練り切り 七百円
冷茶 三百円」

文字は墨色で、縦書き、可読性を最優先。

【縁側】
和室と庭園の境界に木製の縁側。磨き込まれた濃い色の床板。

【奥の庭園】
庭園にはアジサイが満開で咲いている。
青、紫、淡いピンクのアジサイが群生し、苔むした石灯籠と飛び石が見える。
背景の塀越しに、緑の木立。

【ライティングと質感】
晴天の柔らかな光が縁側から室内へ差し込み、座卓と和菓子を優しく照らす。
室内はやや陰影があり、庭園の明るさとのコントラストが効いている。
水ようかんの艶、緑茶の冷たさ、和紙の質感、畳の繊維感まで丁寧に描写。

【アスペクト比】
16:9 横長

【テキスト描画の指示】
メニューに書かれた日本語文字(「本日の甘味」「水ようかん 六百円」など)が、
歪みなく、正確に、読める状態で描画されること。

Gemini 3.5 Flashの結果

縁側越しにアジサイの庭園、手前に和室の座卓という構図がしっかり成立しています。3層構造(室内→縁側→庭園)が明確で、空間の奥行きが綺麗に出ました。

注目はメニュー表です。「本日の甘味」「水ようかん 六百円」「葛饅頭 五百円」「練り切り 七百円」「冷茶 三百円」──縦書きの日本語と漢数字が、ひとつも崩れることなく描けています。画数の多い「葛饅頭」「練り切り」もクリア。これは正直、軽量モデルの結果としては相当すごい。でも、メニュー名がなく、価格だけ五百円、というものが残っていますね。

和菓子の描写には課題が残ります。水ようかんはガラスの器に入っているものの、四角く切り出した艶のある質感が出ておらず、プリンのような塊に。指定したはずの「白い葛饅頭」もテーブル上に見当たりません。冷茶の氷もほぼ視認できない状態でした。

Gemini 3 Proの結果

こちらもメニューの日本語は問題なく描けています。Flashと同等レベルで、文字描画の差はほぼありません。

差が出たのは和菓子の質感です。水ようかんはガラス皿の上に四角くカットされた艶のある羊羹がしっかり乗っていて、上には金箔らしき粒まで添えられています。「水ようかんとは何か」を理解している描画です。白い葛饅頭も別皿にきちんと描かれ、練り切りも桜色+黄色い芯まで丁寧。切子グラスの中の氷もはっきり見えています。

構図はFlashと少し違って、テーブルが庭園と地続きのように見える配置。石灯籠が中央にどんと配置されていて、視線の主役が分かりやすい絵作りになりました。アジサイの群生感もこちらのほうが量感があります。ランチョンマットはなくなっちゃいましたね。

ケース2:UIダッシュボード──英語プロンプトで日本語ラベルを自動生成

もう1つ、別の角度からも試してみました。今回の記事のアイキャッチ候補として作っていた「ダークUI・データダッシュボード風」のプロンプトを、FlashとProそれぞれに投げてみたのです。

メニュー表のように「描いてほしい日本語」を明示的に指定したケース1とは違って、こちらは英語のプロンプトで「画面上に日本語のラベルやステータスを並べる」という大まかな指示だけ。AIが文脈に応じて自分で日本語を生成・配置する、より難しいパターンです。

Gemini 3.5 Flashの結果

UI全体のデザインはダーク基調にネオンパープルのアクセントが効いていて、サイバー感のある仕上がりです。中央のプレビュー画像も幻想的な森のシーンが綺麗に描けています。

ただし、文字まわりに惜しい部分がいくつか残りました。左上「Style」のドロップダウンの中身が「鼯糟鯀」のような実在しない漢字列に。右上のプロンプト表示エリアは見出しが「デススプロンプト」(おそらく「テストプロンプト」のつもり)になっていて、本文も「画像広成な旨みを見た間夘狂を韌にに、棚を出した歴史を持みりから、作成しています。」と、それっぽく見えるけれど読むと意味が通らない日本語に。右側パネルの「日本語処理」「フォント統合」「文字配置精度」といったラベル単体は綺麗に描けていて、「ヘール設定」(「ツール設定」のつもり?)のような細かい崩れがちらほら。

「日本語のラベル単語」レベルではほぼ正確に描けるのに、「文章としての日本語」になると怪しさが残る──というのが、このケースでのFlashの傾向でした。

Gemini 3 Proの結果

こちらは全体的に文字の精度が上がっています。右側の「日本語文字処理:最適化」「漢字レンダリング:正確」「フォント統合:完了」といったラベル+値の組み合わせは、すべて読める日本語として成立。中央プレビューには夜桜と日本のお城、ネオンサイン、青く光る猫という凝った構図が描かれ、看板の日本語の崩れも前のFlash版より少なくなっています。

それでもよく見ると、上部「冷簾文字」のような実在しない単語や、下部「太鼙のこの描誰を提示」「楽諷遼憭セシティング」など、「日本語っぽいが意味不明な文字列」が一部に残っています。完璧ではありません。

ただし、ぱっと見の印象として「ちゃんとした日本語UIに見える」ところまでは仕上がっていて、Proの優位は感じられます。

ケース3:UIプロンプトに「表示する日本語」を具体的に指定してみた

ケース2の結果を見て、ふと疑問が湧きました。「これはFlashの日本語描画能力が足りないのか?それとも、英語プロンプトで日本語ラベルを具体的に指定しなかったから、AIが架空の日本語っぽい文字列を自分で作っちゃっただけなのか?」

そこで、ケース2と同じUIプロンプトをベースに、画面の各位置に表示する日本語を具体的に列挙する形に書き換えて、もう一度Flashで生成してみました。

たとえばこんな具合に、画面の構成要素ごとに表示する日本語を網羅的に書いていく形です。

■ヘッダー部分
- アプリ名表示:「AIダッシュボード」

■左サイドパネル「スタイル設定」
- パネル見出し:「スタイル」
- ドロップダウン内の選択値:「水彩画」
- セクション見出し:「アスペクト比」
- ドロップダウン内の選択値:「16:9」
(以下、画面に表示するすべての日本語を網羅的に列挙)

その結果がこちらです。

ぱっと見て、ケース2より日本語が改善したように見えます。「AIダッシュボード」「スタイル設定」「水彩画」「アスペクト比」「16:9」「プレビュー」「画像生成完了」「生成ステータス」「日本語処理」「最適化」「フォント統合」「完了」「文字配置精度」「100%」、そして「夜桜と日本の城、ネオンサインのある路地」という長めの文字列まで、目につく範囲で指定どおりに描けています。ケース2で見られた「鼯糟鯀」のような架空文字も、今回は見当たりません。

つまり、ケース2の文字化けの主因はFlashの描画能力の限界ではなく、「英語プロンプトで日本語のラベルを具体的に指定していなかったために、AIが文脈から日本語っぽい架空文字列を自分で作ってしまっていた」可能性が高そうです。

描いてほしい日本語が決まっているなら、プロンプトのなかに具体的に書くようにすることで、Flashモデルでも長文を含む複雑な日本語UIが安定して描けるようになります。

画像に表示される「透かし」について

ところで、今回生成していくなかで、Geminiが生成した画像に付いているべき「透かし」が存在しない画像がありました。

ケース1の2枚を見比べると、Proの画像の右下に星形のマークが薄く入っていますが、Flashの画像にはこれがありません。

Geminiが生成した画像には、実は2種類の「透かし」が関係しています。

1. 目に見える透かし(可視ウォーターマーク)

これは右下に表示される星形のマーク。人の目で確認できる、わかりやすい「AI生成画像ですよ」というサインです。今回のProの画像右下に薄く見えているのが、これにあたります。

ただし、この可視マークの有無はモデルや配信タイミングによって変わることがあり、Flash側に出ていないからといって「AIで作っていない画像」というわけではありません。Google AI Ultraなどの上位プランでは可視マークが付かない仕様もあり、見え方はけっこう揺れます。

2. 目に見えない透かし(SynthID)

そしてこちらが本命です。Googleは「SynthID」と呼ばれる、人の目には見えない透かしを画像のピクセル単位で埋め込んでいます。Google公式のサポートページによれば、Geminiで生成・編集された画像には基本的にこのSynthIDが入る仕様で、リサイズや圧縮、色調補正などを行っても基本的に残り続けるとされています。

つまり、今回の画像はどれも「目には見えない透かし(SynthID)が入っている状態」で、可視マークの有無は表面上の見え方の違いにすぎません。

確認する方法

自分が持っている画像にSynthIDが入っているかどうかは、Geminiアプリにその画像をアップロードして「これはAIで作られた画像?」と聞くと確認してくれます。検出されれば「Google AIで作られた/編集された画像」と返ってきますし、検出されなければ「Google AIで作られたものではないか、判定に必要な情報が足りない」といった答えが返ってきます。

試しに、今回のFlashで生成した画像(右下に可視マークが入っていないほう)をGeminiにアップロードして確認してみたところ、SynthIDが検出されました。見た目では透かしが見えなくても、ピクセル単位の不可視ウォーターマークはきちんと埋め込まれているのです。

AI生成画像が当たり前になってきた時代に、「これはAIで作られた画像かどうか」を後から確認できる仕組みが整いつつあるのも、知っておきたいトピックです。

比較してみての所感

AIの進化・変化のスピードはすさまじく、一つ一つの動作検証に時間を取られてしまうと、本来の業務に支障をきたしてしまうことにもつながりかねません。ただまあ、こうしたよく使う画像生成なんかは、何度も試して癖を手のうちに入れておくことで、自分なりの判断はできるようになります。

僕が3つのケースを通して見えてきたのは、こんな整理です。

指定された日本語を描く能力(ケース1、ケース3):Flash・Proともに高水準。短い縦書きの日本語でも、UI画面の長文混じりの日本語でも、プロンプトで具体的に指示すれば安定して描ける。

指示なしで日本語を生成しつつ描く能力(ケース2):英語プロンプトで日本語ラベルを指定しなかった場合、AIが「日本語っぽい架空文字列」を作ってしまうことがある。Proのほうが結果はマシだが、両方とも完全には防げない。

和菓子の質感やワールドナレッジ(ケース1):Proに優位性。具体物の知識が画像の細部に効いてくる。

Flashモデルを使うときの実用的なコツとして、

  • 画面に表示したい日本語が決まっているなら、プロンプトに具体的に書く
  • AIに自由に日本語を考えさせるとハマる場合がある(架空文字列が混入することがある)
  • 被写体の質感や正確さが重要なときはProを呼ぶ

この3点を押さえておけば、多くの場面でFlashで十分に高品質な画像が得られそうです。

画像生成の日本語表示でFlashが実用域に入るなら、ありがたい

これまで「文字入りの綺麗な画像を作りたい」と思ったら、Proモデルを呼び出すか、画像内テキスト用の別ツールを使う必要がありました。それが2026年2月のNano Banana 2を起点に変わり始め、Google I/O 2026のGemini 3.5 Flash発表で、普通に使うモデルがそのまま日本語の文字をクッキリ描いてくれる環境になりました。

今回FlashとProを並べて検証してみて、あるていどのレベルdではFlashで十分、「画面全体に自然な日本語を散りばめる」ような場合は表示したい日本語を具体的に指定すれば良い、被写体の質感が重要ならProも選択肢みたいなすみわけも見えてきました。

今までは仕事で使う際には有無を言わさずPro、って使い方をしていましたが、まずFlashで作らせてみようかな、という選択肢は出てきたように思います。癖をつかんで、「これならFlashでいいや」の線引きが感覚的にできるようになると、画像生成の効率は上がっていきそうです。

画像生成の日本語にガッカリしていた方も、文字起こしの精度に満足していなかった方も、Geminiアプリで一度Flash 3.5を試してみてください。

記事のクイズ この記事、ちゃんと読めた?

本記事の検証でわかった、英語プロンプトでAI画像生成を頼んだときに日本語が「鼯糟鯀」のような架空文字列で崩れる現象の主な原因は?

-AIノウハウ
-, , , , ,