ChatGPTで知らなかったこと

最近、私が描いたアンコクくんの画像でAI加工してみたりしています。著作権は私自身にあるので、権利を気にせずに自由に加工できるのが気楽です。

ただ実際にやってみると、ソフトウェアに関する質問をするより、画像生成AIを思い通りに動かすほうがずっと難しいということに気づきました。どうしても指示どおりにいかないことが多いのです。

特に気になったのは、指示が反映されていないと伝えたときのChatGPTの返答。「AIが◯◯と解釈して、指示と異なる動作をしてしまいました」といった“言い訳”のような返しが多いんですね。

それで改めて仕組みを確認してみたところ、私たちが話しかけている「ChatGPT」はあくまでフロント担当であり、実際の作業はその背後にいる複数のAIツールが行っていることが分かりました。


★ChatGPT(ユーザーと話す)

  • 会話の理解・要約・判断
  • 人間の意図を整理してAIに指示を出す
  • 全体の調整と説明を担当

   ↓ (指示・依頼)

★バックエンドAI(専門チーム)

  • image_gen … 画像生成・修正
  • Python … 計算・グラフ・データ処理
  • web … インターネット検索
  • gcal … カレンダーの予定確認
  • gmail … メールの検索や要約
  • bio … ユーザーの希望や設定の記憶
  • automations … 定期的な通知やタスク実行

   ↓ (結果・成果物)

★ユーザー

  • ChatGPTと会話して意図を伝える
  • 成果物(画像・コード・文書など)を受け取る

つまり、私たちがやり取りしているのは「総合受付」みたいな存在で、実際の処理はその先にいる専門チーム(AIたち)が担当しているわけです。まあ、このようなことはAIエージェント設計の王道アーキテクチャなのでご存じのかたも多いでしょう。

で、たとえば、ChatGPTに「さっきの画像を部分的に直して」と伝え、ChatGPTがimage_genにその旨を伝えるんですが、image_genはまだ部分加工ができないので(2025年10月現在)、全体再編成してしまうということが起きたりします。結果、アンコクくんは「パンダっぽい生き物」と判断されてしまい、パンダ寄りに全体像を再構築されてアンコクくんらしさを失うということも起こります。で、ついつい私はフロント担当に「おいおい。こっちの要求と違うじゃないか」と苦言を呈し、フロント担当が「AIに伝えたら部分加工はできないそうです。サーセン!」みたいな言い訳をしたりするわけです。

AIはときに「おおっ!」と驚く成果を出してくれますが、オリジナリティの強い作品を作りたいときは、やはり最後は人の手による調整が欠かせない。

結局のところ、Photoshopなどで自分の意図を反映させる作業もまだまだ必要だと感じています。