PersonaPlex es un modelo conversacional de voz a voz en tiempo real y full-duplex. Ofrece dos dimensiones principales de control:
- prompts de texto para controlar el rol o la persona
- condicionamiento de audio para controlar el estilo de voz
Esta construido sobre la arquitectura y los pesos de Moshi, con el objetivo de lograr interacciones habladas de baja latencia, mas naturales y con un comportamiento de persona consistente.
Para Que Sirve
Los casos de uso comunes incluyen:
- asistentes de voz en tiempo real
- interacciones de rol tipo atencion al cliente
- demos conversacionales de baja latencia
- experimentos de control de persona + voz
Requisitos Previos
Instala la biblioteca de desarrollo del codec de audio Opus:
|
|
Instalacion y Entorno
Instala desde el repositorio:
|
|
Para GPU Blackwell, se puede usar un paso adicional:
|
|
Despues de aceptar la licencia del modelo PersonaPlex en Hugging Face, configura tu token:
|
|
Lanzar el Servidor en Vivo
Arranque estandar (SSL temporal):
|
|
Si la memoria de la GPU es limitada, activa la descarga a CPU (accelerate requerido):
|
|
Usa localhost:8998 para ejecuciones locales, o el enlace de acceso impreso para entornos remotos.
Evaluacion Offline
El script offline consume un wav de entrada y genera un wav de salida con la misma duracion:
|
|
|
|
Etiquetas de Voz Integradas
- Natural(female): NATF0, NATF1, NATF2, NATF3
- Natural(male): NATM0, NATM1, NATM2, NATM3
- Variety(female): VARF0, VARF1, VARF2, VARF3, VARF4
- Variety(male): VARM0, VARM1, VARM2, VARM3, VARM4
Consejos Para Prompts
La cobertura de entrenamiento incluye principalmente:
- rol de asistente
- roles de atencion al cliente
- conversaciones informales
Consejos practicos:
- define primero la identidad del rol y luego agrega el contexto de la tarea
- manten los prompts concisos para reducir la deriva de persona
- reutiliza el mismo voice prompt para comparaciones estables
Resumen
PersonaPlex destaca no porque entregue una respuesta mas inteligente, sino porque mantiene un comportamiento de persona y voz mas consistente en interacciones de voz en tiempo real.
Para agentes de voz full-duplex, es una opcion practica que vale la pena probar y comparar.