PersonaPlex-7b マニュアル

概要

PersonaPlex-7b は NVIDIA が開発したオープンソースのリアルタイム音声対話AI。従来のASR→LLM→TTSパイプラインと異なり、統一Transformerアーキテクチャで同時に聞きながら話す「フルデュプレックス」会話を実現する。

項目内容
開発元NVIDIA
ライセンスMIT(完全オープンソース)
パラメータ数7B
実行形態ローカル GPU
要件NVIDIA GPU 24GB VRAM (RTX 3090/4090/A10G)
Hugging Facenvidia/PersonaPlex-7b

できること

✅ 得意なこと

  • フルデュプレックス対話 — 聞きながら同時に話す自然な会話
  • 割り込み処理 — ユーザーの割り込みに即座に対応
  • ペルソナ制御 — テキスト/音声プロンプトでキャラクター設定
    • 声質・話し方のスタイルを音声サンプルで指定
    • 役割・背景・シナリオをテキストで定義
  • リアルタイム生成 — 低遅延の音声応答
  • バックチャネル — 「うんうん」「なるほど」等の相槌を自然に挿入
  • オフライン音声生成 — バッチモードでのTTS生成も可能

⚠️ 制限・要件

  • GPU必須: 24GB VRAM(RTX 3090/4090/A10G/A40)
  • Linux推奨: Windows でも動作するがCUDA環境必須
  • 初回起動時: モデルダウンロード(数GB)が必要

セットアップ

# 1. 依存ライブラリインストール
pip install moshi huggingface_hub torch
 
# 2. 対話モードで起動
python -m moshi.server --hf-repo nvidia/PersonaPlex-7b
 
# 3. ブラウザでアクセス
# → http://localhost:8998

実行コマンド

$py = "C:\ai_work\venv\Scripts\python.exe"
$script = "C:\ai_work\quartz-site\obsidian valut\06_Projects\01_Active\PJ-MultiModal-260226\scripts\generate_voice.py"
 
# PersonaPlex で音声生成(要GPU 24GB)
& $py $script "こんにちは、世界!" --engine personaplex
 
# 対話サーバー起動
python -m moshi.server --hf-repo nvidia/PersonaPlex-7b

アーキテクチャ

音声入力 → Mimi エンコーダー (24kHz)
                ↓
        離散トークン化
                ↓
    Helium LLM バックボーン (7B)
        ↓            ↓
   テキストトークン  音声トークン(同時生成)
        ↓            ↓
    テキスト出力  → Mimi デコーダー → 音声出力

用途例

用途適性
高品質ナレーション
リアルタイム対話ボット
ゲームNPCの音声
カスタマーサポート
軽量テスト用ナレーション❌(pyttsx3推奨)

関連リンク