はじめに
こんにちは。株式会社アイスリーデザイン エンジニアリング部のすずきです。
24年新卒で入社し、日々プロジェクトや社内研究に奮闘しています。入社後の新入社員研修では図書管理アプリを作りました。その様子も記事になっているので、ぜひお読みください!
入社3ヶ月目のエンジニアが作ったアプリが最高だった – i3DESIGN Tech Blog
アイスリーデザインでは、AIの研究や、実際にAIを業務でも活用する取り組みを行っています。私は大学で人工知能の研究を行っていたこともあり、入社してからは同僚と共にAI研究を進めてきました。
この記事では、生成された画像を使ってサムネイルを作る流れを紹介します。
業務効率化などを目的として画像生成AIを用いてみたいという方は参考になさってください。
画像生成AIを使って業務効率化を目指す
使用したモデルは「ChatGPT4o(omni)」
今回使用したAIは、2024年5月に発表された「ChatGPT4o(omni)」です。
従来のChatGPTはテキストデータしか認識できませんでしたが、ChatGPT4o は画像や音声も認識できるようになりました。
ChatGPT4oは、生成された画像に対して生成時のプロンプト(AIに対する命令や指令)も共に出力してくれたり、修正して欲しい部分を画像内で指摘できたりと便利な機能が搭載されています。
今回は、主に生成された画像のプロンプトを出力する機能を使いました。
画像生成とサムネイル作りの流れ
今回生成したい画像はサムネイルなので、ただの画像ではなく、サムネイルとしてわかりやすくシンプルなイラストの画像を目標にプロンプトで調整しました。
また、生成される画像のテイストがある程度まで統一されるような生成の流れをまとめました。
1. 目標となるような雰囲気の複数枚の画像をアップロードし、それらの画像の共通点を聞きます。
例:これらの画像に共通する条件をプロンプトとしてまとめてください。
2. 出力されたプロンプトの中で、欲しい画像の雰囲気を調整しているプロンプトのみを抜き出します。
3. 抜き出したプロンプトと「文字を含まないこと」を条件として設定して、記事のタイトルからサムネイルを生成します。
現状、画像生成AIで画像にテキストを組み込むということはまだまだ発展途上であると言えます。例えば、文字ではない形状のものが出力されたり、綴りが間違っていたりというようなことは頻繁に起こる印象です。
そういった事情もあり、今回は「文字を含まないこと」を条件として追加しました。
ちなみに、人体の部位(例えば手の形状や指の本数)なども正確に反映できないことが多く、画像生成AIにおける弱点の一つであると言えます。
例:(2.で抜き出した条件)以上の条件で「ChatGPTを使って記事のサムネイルを作ってみた」と言う記事のサムネイルを作ってください。ただし文字は含まないでください。
4. サムネイルに適した画像が出るまで、プロンプトを調整しながら生成を繰り返します。
生成した画像のプロンプトを解析することで、よりイメージに近い画像を生成しやすくなります。なので、画像生成を繰り返す時にはプロンプトも同時に調整しながらやるといいと思います。
この画像で条件としたプロンプトをまとめると、以下のような内容になります。
- デザインはシンプルでフラットなイラストスタイルを使用し、影は最小限に
- 人物は抽象的でスタイライズされており、シンプルさを重視し、リアルなディテールにはこだわらない
- 背景は白
- 人物やテキストは緑、青、黒などのコントラストの効いた色で配置されている
- 背景全体が周囲のパステル調の色に統一され、画像全体がシームレスにブレンドされている
弊社の記事でよく使われるサムネイルの雰囲気を目指してみました!出力したい画像のイメージを詳細に言語化して、プロンプトとして学習させることがポイントになります。
5. 必要であればサムネイルについて画像を編集し、タイトルを入れます。
ChatGPTでは実際に画像の一部を指定して修正することができるので、文字や不要な要素が入ってしまった場合は、部分指定で修正します。
6. 完成
今回アップロードした画像は以下の8枚です。
これらの画像はi3DESIGNのin-Pocketから引用しました。
以下の画像が、実際に前述の流れを使って、今回の記事のタイトルから画像生成を行ったものです。
設定する条件やプロンプトのポイント
プロンプトによって生成される画像のテイストが異なるので、生成された画像のプロンプトを見て、細かい調整を繰り返して安定するような条件付けをすることがイメージした画像に近づけるポイントです。
画像に不要な条件が追加されている場合があるので、その場合はそのプロンプトを抜き出したり、変更したりします。
また、タイトルを具体的に表現した画像を生成したかったので、タイトル内の文言をそのままプロンプトに組み込んでみました。この方法は、タイトルとの関連性が重要なサムネイル作成においては効果的だと思います。
改善点・展望
生成された画像がAIで作ったことがわかってしまう特徴、例えば線の太さが歪む、テクスチャが似通っているなどがあり、狙った画像をすぐに作るにはまだ不安な点が多いのが現状です。
そのため、安定して出力されるようにより詳細なプロンプトを増やし、細かい部分まで指定する必要があります。
また、テキストを含めた画像生成が上手くできるようなモデルはまだでてきていないので、その部分はどうしても人の手で行うことになってしまいます。
まとめ
今回は、ChatGPT4oを使ってサムネイルの画像を生成してみました。
また、安定した画像出力のためのポイントも解説してみました。
最終的な調整には人の手が必要ですが、今までの作成時間等を考えると業務効率化の目標は一部達成できたと思います。
今後も新しい画像生成のモデルの登場や既存モデルのアップデートがあれば、業務効率化のために利用していきたいです。
さいごに
弊社では特徴量エンジニアリングという手法を用いてAIの精度を高める技術開発を行っております。機械学習を活用したアプリケーションやシステム構築に関して、構想段階からご相談承っております。お気軽にお問い合わせください。
▼特徴量エンジニアリングとは何かが気になるという方はこちら
特徴量エンジニアリングとは?需要予測AIや画像生成AIの精度を上げる手法について初心者向けに解説! | in-Pocket インポケット
AIを活用したアプリケーションやシステム構築をお考えですか?お気軽にご相談ください。