PJ-MultiModal-260226
概要
Antigravity を「自律型コンテンツ制作エンジン」として機能させるための マルチモーダル生成ツール群プロジェクト。
プロジェクト構造
PJ-MultiModal-260226/
├── scripts/
│ ├── generate_image.py ← Nano Banana Pro (画像)
│ ├── generate_video.py ← Veo 3.1 (動画)
│ ├── generate_voice.py ← ElevenLabs (音声)
│ ├── generate_music.py ← Lyria 2 (音楽)
│ └── gemini_media.py ← 統合CLI
├── remotion/ ← Remotion 動画構築
├── assets/ ← 生成素材
├── outputs/ ← 最終成果物
└── README.md
クイックスタート
# Python venv を使用
$py = "C:\ai_work\venv\Scripts\python.exe"
# 画像生成
& $py scripts/generate_image.py "猫のイラスト"
# 動画生成
& $py scripts/generate_video.py "海辺の夕日"
# 音声生成(ElevenLabs APIキー必要)
& $py scripts/generate_voice.py "こんにちは"
# 統合CLI
& $py scripts/gemini_media.py image "プロンプト"
& $py scripts/gemini_media.py video "プロンプト"必要な環境変数
C:\ai_work\new_bot\.env に設定:
| 変数 | サービス | 状態 |
|---|---|---|
GEMINI_API_KEY | Gemini API (画像/動画) | ✅ 設定済み |
ELEVENLABS_API_KEY | ElevenLabs (音声) | ⏳ 未設定 |
GCP_PROJECT_ID | Vertex AI (音楽) | ⏳ 未設定 |
運用ルール
→ マルチモーダル運用ルール を参照
制作パイプライン
- 分析 — 資料読込、ターゲット整理
- 設計 — 台本・絵コンテ・BGMトーン提案 → 承認
- 生成 — 画像・音声・BGMを並列制作
- 実装 — Remotion で素材を組み立て
- 出力 —
npx remotion renderで最終MP4