PJ-MultiModal-260226

概要

Antigravity を「自律型コンテンツ制作エンジン」として機能させるための マルチモーダル生成ツール群プロジェクト。

プロジェクト構造

PJ-MultiModal-260226/
├── scripts/
│   ├── generate_image.py  ← Nano Banana Pro (画像)
│   ├── generate_video.py  ← Veo 3.1 (動画)
│   ├── generate_voice.py  ← ElevenLabs (音声)
│   ├── generate_music.py  ← Lyria 2 (音楽)
│   └── gemini_media.py    ← 統合CLI
├── remotion/              ← Remotion 動画構築
├── assets/                ← 生成素材
├── outputs/               ← 最終成果物
└── README.md

クイックスタート

# Python venv を使用
$py = "C:\ai_work\venv\Scripts\python.exe"
 
# 画像生成
& $py scripts/generate_image.py "猫のイラスト"
 
# 動画生成
& $py scripts/generate_video.py "海辺の夕日"
 
# 音声生成(ElevenLabs APIキー必要)
& $py scripts/generate_voice.py "こんにちは"
 
# 統合CLI
& $py scripts/gemini_media.py image "プロンプト"
& $py scripts/gemini_media.py video "プロンプト"

必要な環境変数

C:\ai_work\new_bot\.env に設定:

変数サービス状態
GEMINI_API_KEYGemini API (画像/動画)✅ 設定済み
ELEVENLABS_API_KEYElevenLabs (音声)⏳ 未設定
GCP_PROJECT_IDVertex AI (音楽)⏳ 未設定

運用ルール

マルチモーダル運用ルール を参照

制作パイプライン

  1. 分析 — 資料読込、ターゲット整理
  2. 設計 — 台本・絵コンテ・BGMトーン提案 → 承認
  3. 生成 — 画像・音声・BGMを並列制作
  4. 実装 — Remotion で素材を組み立て
  5. 出力npx remotion render で最終MP4