概要
PersonaPlex-7b は NVIDIA が開発したオープンソースのリアルタイム音声対話AI。従来のASR→LLM→TTSパイプラインと異なり、統一Transformerアーキテクチャで同時に聞きながら話す「フルデュプレックス」会話を実現する。
| 項目 | 内容 |
|---|
| 開発元 | NVIDIA |
| ライセンス | MIT(完全オープンソース) |
| パラメータ数 | 7B |
| 実行形態 | ローカル GPU |
| 要件 | NVIDIA GPU 24GB VRAM (RTX 3090/4090/A10G) |
| Hugging Face | nvidia/PersonaPlex-7b |
できること
✅ 得意なこと
- フルデュプレックス対話 — 聞きながら同時に話す自然な会話
- 割り込み処理 — ユーザーの割り込みに即座に対応
- ペルソナ制御 — テキスト/音声プロンプトでキャラクター設定
- 声質・話し方のスタイルを音声サンプルで指定
- 役割・背景・シナリオをテキストで定義
- リアルタイム生成 — 低遅延の音声応答
- バックチャネル — 「うんうん」「なるほど」等の相槌を自然に挿入
- オフライン音声生成 — バッチモードでのTTS生成も可能
⚠️ 制限・要件
- GPU必須: 24GB VRAM(RTX 3090/4090/A10G/A40)
- Linux推奨: Windows でも動作するがCUDA環境必須
- 初回起動時: モデルダウンロード(数GB)が必要
セットアップ
# 1. 依存ライブラリインストール
pip install moshi huggingface_hub torch
# 2. 対話モードで起動
python -m moshi.server --hf-repo nvidia/PersonaPlex-7b
# 3. ブラウザでアクセス
# → http://localhost:8998
実行コマンド
$py = "C:\ai_work\venv\Scripts\python.exe"
$script = "C:\ai_work\quartz-site\obsidian valut\06_Projects\01_Active\PJ-MultiModal-260226\scripts\generate_voice.py"
# PersonaPlex で音声生成(要GPU 24GB)
& $py $script "こんにちは、世界!" --engine personaplex
# 対話サーバー起動
python -m moshi.server --hf-repo nvidia/PersonaPlex-7b
アーキテクチャ
音声入力 → Mimi エンコーダー (24kHz)
↓
離散トークン化
↓
Helium LLM バックボーン (7B)
↓ ↓
テキストトークン 音声トークン(同時生成)
↓ ↓
テキスト出力 → Mimi デコーダー → 音声出力
用途例
| 用途 | 適性 |
|---|
| 高品質ナレーション | ✅ |
| リアルタイム対話ボット | ✅ |
| ゲームNPCの音声 | ✅ |
| カスタマーサポート | ✅ |
| 軽量テスト用ナレーション | ❌(pyttsx3推奨) |
関連リンク