マルチモーダル構成図

全体アーキテクチャ

graph TB
    subgraph USER["👤 ユーザー"]
        U1["指示・プロンプト"]
    end

    subgraph AG["🚀 Antigravity(オーケストレーター)"]
        AGC["コマンド解析・タスク分解"]
        AGP["制作パイプライン管理"]
        AGO["アセット統合・出力"]
    end

    U1 --> AGC
    AGC --> AGP
    AGP --> AGO

    subgraph IMAGE["🎨 画像生成"]
        IMG1["<b>Nano Banana Pro</b><br/>gemini-2.5-flash-image<br/>gemini-3-pro-image-preview"]
        IMG2["AUTOMATIC1111<br/>Stable Diffusion + LoRA"]
    end

    subgraph VIDEO["🎬 動画生成"]
        VID1["<b>Veo 3.1</b><br/>veo-3.1-generate-preview"]
        VID2["<b>Remotion</b><br/>React + TypeScript"]
    end

    subgraph VOICE["🎙️ 音声生成"]
        VOC1["<b>pyttsx3</b><br/>Windows TTS / Haruka"]
        VOC2["<b>PersonaPlex-7b</b><br/>NVIDIA フルデュプレックス"]
    end

    subgraph MUSIC["🎵 音楽生成"]
        MUS1["<b>Lyria 2</b><br/>Vertex AI / lyria-002"]
        MUS2["Lyria RealTime<br/>Gemini Live API"]
        MUS3["Music FX<br/>Google AI Test Kitchen"]
    end

    subgraph SLIDE["📊 スライド"]
        SLD1["<b>Gamma</b><br/>AI自動レイアウト"]
        SLD2["python-pptx<br/>PPTX生成"]
    end

    AGP -->|"Cloud API<br/>GEMINI_API_KEY"| IMG1
    AGP -->|"Local API"| IMG2
    AGP -->|"Cloud API<br/>GEMINI_API_KEY"| VID1
    AGP -->|"CLI / npm run render"| VID2
    AGP -->|"ローカル<br/>GPU不要"| VOC1
    AGP -->|"ローカル<br/>要GPU 24GB"| VOC2
    AGP -->|"Vertex AI<br/>GCP_PROJECT_ID"| MUS1
    AGP -->|"Gemini API"| MUS2
    AGP -->|"ブラウザ操作"| MUS3
    AGP -->|"ブラウザ操作"| SLD1
    AGP -->|"Python"| SLD2

    subgraph OUTPUT["📦 出力"]
        OUT1["🖼️ PNG / 4K画像"]
        OUT2["🎥 MP4 動画"]
        OUT3["🔊 WAV 音声"]
        OUT4["🎶 BGM"]
        OUT5["📑 PPTX"]
    end

    IMG1 --> OUT1
    IMG2 --> OUT1
    VID1 --> OUT2
    VID2 --> OUT2
    VOC1 --> OUT3
    VOC2 --> OUT3
    MUS1 --> OUT4
    MUS2 --> OUT4
    SLD1 --> OUT5
    SLD2 --> OUT5

    AGO --> OUT2

    style AG fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
    style IMAGE fill:#0f3460,stroke:#16213e,color:#fff
    style VIDEO fill:#533483,stroke:#16213e,color:#fff
    style VOICE fill:#2b6777,stroke:#16213e,color:#fff
    style MUSIC fill:#6a0572,stroke:#16213e,color:#fff
    style SLIDE fill:#1b4332,stroke:#16213e,color:#fff
    style OUTPUT fill:#2d2d2d,stroke:#666,color:#fff
    style USER fill:#e94560,stroke:#16213e,color:#fff

制作パイプラインフロー

graph LR
    A["📋 1. 分析"] --> B["📝 2. 設計"]
    B --> C["🎨 3. 並列生成"]
    C --> D["🔧 4. 実装"]
    D --> E["📦 5. 出力"]

    subgraph PARALLEL["並列アセット制作"]
        C1["Nano Banana Pro<br/>→ 画像素材"]
        C2["Veo 3.1<br/>→ 動画素材"]
        C3["pyttsx3 / PersonaPlex<br/>→ ナレーション"]
        C4["Lyria 2<br/>→ BGM"]
    end

    C --> C1
    C --> C2
    C --> C3
    C --> C4

    C1 --> D
    C2 --> D
    C3 --> D
    C4 --> D

    style PARALLEL fill:#1a1a2e,stroke:#e94560,stroke-width:1px,color:#fff

指示系統マトリクス

指示元経路指示先プロトコル認証
Antigravity→ Python スクリプト →Nano Banana ProGemini REST APIGEMINI_API_KEY
Antigravity→ Python スクリプト →Veo 3.1Gemini REST API (非同期)GEMINI_API_KEY
Antigravity→ npm コマンド →RemotionCLI (npx remotion render)不要
Antigravity→ Python スクリプト →pyttsx3ローカル Windows SAPI5不要
Antigravity→ Python スクリプト →PersonaPlex-7bローカル moshi サーバー不要(要GPU)
Antigravity→ Python スクリプト →Lyria 2Vertex AI REST APIGCP_PROJECT_ID
Antigravity→ ブラウザ操作 →Music FXWeb UIGoogle ログイン
Antigravity→ ブラウザ操作 →GammaWeb UIGamma ログイン

ファイルパス構成

PJ-MultiModal-260226/
├── scripts/                        ← Antigravity が呼び出すスクリプト群
│   ├── generate_image.py           → Nano Banana Pro
│   ├── generate_video.py           → Veo 3.1
│   ├── generate_voice.py           → pyttsx3 / PersonaPlex-7b
│   ├── generate_music.py           → Lyria 2
│   └── gemini_media.py             → 統合CLI
├── remotion/                       ← Remotion 動画プロジェクト
│   ├── src/                        → React コンポーネント
│   └── package.json                → npm run studio / render
├── assets/                         ← 中間生成物
└── outputs/                        ← 最終成果物

関連ドキュメント