PersonaPlex-7b マニュアル

概要

PersonaPlex-7b は NVIDIA が開発したオープンソースのリアルタイム音声対話AI。従来のASR→LLM→TTSパイプラインと異なり、統一Transformerアーキテクチャで同時に聞きながら話す「フルデュプレックス」会話を実現する。

項目	内容
開発元	NVIDIA
ライセンス	MIT（完全オープンソース）
パラメータ数	7B
実行形態	ローカル GPU
要件	NVIDIA GPU 24GB VRAM (RTX 3090/4090/A10G)
Hugging Face	`nvidia/PersonaPlex-7b`

できること

✅ 得意なこと

フルデュプレックス対話 — 聞きながら同時に話す自然な会話
割り込み処理 — ユーザーの割り込みに即座に対応
ペルソナ制御 — テキスト/音声プロンプトでキャラクター設定
- 声質・話し方のスタイルを音声サンプルで指定
- 役割・背景・シナリオをテキストで定義
リアルタイム生成 — 低遅延の音声応答
バックチャネル — 「うんうん」「なるほど」等の相槌を自然に挿入
オフライン音声生成 — バッチモードでのTTS生成も可能

⚠️ 制限・要件

GPU必須: 24GB VRAM（RTX 3090/4090/A10G/A40）
Linux推奨: Windows でも動作するがCUDA環境必須
初回起動時: モデルダウンロード（数GB）が必要

セットアップ

# 1. 依存ライブラリインストール
pip install moshi huggingface_hub torch
 
# 2. 対話モードで起動
python -m moshi.server --hf-repo nvidia/PersonaPlex-7b
 
# 3. ブラウザでアクセス
# → http://localhost:8998

実行コマンド

$py = "C:\ai_work\venv\Scripts\python.exe"
$script = "C:\ai_work\quartz-site\obsidian valut\06_Projects\01_Active\PJ-MultiModal-260226\scripts\generate_voice.py"
 
# PersonaPlex で音声生成（要GPU 24GB）
& $py $script "こんにちは、世界！" --engine personaplex
 
# 対話サーバー起動
python -m moshi.server --hf-repo nvidia/PersonaPlex-7b

アーキテクチャ

音声入力 → Mimi エンコーダー (24kHz)
                ↓
        離散トークン化
                ↓
    Helium LLM バックボーン (7B)
        ↓            ↓
   テキストトークン  音声トークン（同時生成）
        ↓            ↓
    テキスト出力  → Mimi デコーダー → 音声出力

用途例

用途	適性
高品質ナレーション	✅
リアルタイム対話ボット	✅
ゲームNPCの音声	✅
カスタマーサポート	✅
軽量テスト用ナレーション	❌（pyttsx3推奨）

社内ポータル

エクスプローラー

PersonaPlex-7b マニュアル

PersonaPlex-7b マニュアル

概要

できること

✅ 得意なこと

⚠️ 制限・要件

セットアップ

実行コマンド

アーキテクチャ

用途例

関連リンク

グラフビュー

目次

バックリンク