Real-Time Voice Systems: diseño y arquitectura en 5 niveles
Los sistemas de voz han avanzado rápidamente en los últimos años, pero la mayoría de implementaciones aún se quedan en demos: combinaciones simples de Speech-to-Text, modelos de lenguaje y Text-to-Speech que funcionan en entornos controlados, pero fallan al enfrentarse a condiciones reales. Esta charla propone un enfoque distinto: entender los sistemas de voz como una arquitectura que evoluciona en niveles de madurez, desde prototipos básicos hasta sistemas en tiempo real listos para producción. A través de un framework de 5 niveles, recorreremos el camino completo de un sistema de Conversational AI: desde la integración de componentes básicos, pasando por los retos de orquestación (streaming, latencia, turn-taking), hasta los problemas menos evidentes pero críticos como calidad de audio, robustez y experiencia de usuario, llegando a arquitecturas en tiempo real con tecnologías como LiveKit, y finalmente, explorando hacia dónde va el futuro con sistemas end-to-end y agentes multimodales. La charla está basada en experiencia real construyendo sistemas de voz en producción, y se enfoca en decisiones de ingeniería más que en herramientas específicas. Los asistentes se llevarán un entendimiento claro de cómo diseñar sistemas de voz modernos con Python, qué problemas deben anticipar y cómo estructurar sus propias arquitecturas para construir experiencias conversacionales de clase mundial.
Want to know more?
Join PyCon Colombia newsletter and get a complete overview of our events, speakers and community participation.


