Artificial Intelligence Machine Learning Web DevOps

Real-Time Voice Systems: diseño y arquitectura en 5 niveles

Los sistemas de voz han avanzado rápidamente en los últimos años, pero la mayoría de implementaciones aún se quedan en demos: combinaciones simples de Speech-to-Text, modelos de lenguaje y Text-to-Speech que funcionan en entornos controlados, pero fallan al enfrentarse a condiciones reales. Esta charla propone un enfoque distinto: entender los sistemas de voz como una arquitectura que evoluciona en niveles de madurez, desde prototipos básicos hasta sistemas en tiempo real listos para producción. A través de un framework de 5 niveles, recorreremos el camino completo de un sistema de Conversational AI: desde la integración de componentes básicos, pasando por los retos de orquestación (streaming, latencia, turn-taking), hasta los problemas menos evidentes pero críticos como calidad de audio, robustez y experiencia de usuario, llegando a arquitecturas en tiempo real con tecnologías como LiveKit, y finalmente, explorando hacia dónde va el futuro con sistemas end-to-end y agentes multimodales. La charla está basada en experiencia real construyendo sistemas de voz en producción, y se enfoca en decisiones de ingeniería más que en herramientas específicas. Los asistentes se llevarán un entendimiento claro de cómo diseñar sistemas de voz modernos con Python, qué problemas deben anticipar y cómo estructurar sus propias arquitecturas para construir experiencias conversacionales de clase mundial.

Speaker

Nicolas Danies

Data Science Manager @ Visa

Soy Data Science Manager en Visa, donde lidero proyectos de inteligencia artificial para la región andina enfocados en convertir modelos de machine learning y GenAI en productos reales con impacto en negocio. Mi trabajo se centra en cerrar la brecha entre investigación y producción: desde diseñar modelos hasta desplegarlos como sistemas escalables usados por bancos y empresas en múltiples países. Mi carrera ha sido un recorrido acelerado dentro del ecosistema tecnológico en Latinoamérica, pasando por compañías como Mercado Libre y Rappi, donde trabajé en problemas de alto impacto como fraude, pricing en tiempo real y sistemas distribuidos a gran escala. Paralelamente, soy cofundador y COO de una startup de inteligencia artificial enfocada en entrenamiento comercial mediante sistemas speech-to-speech, donde estoy construyendo arquitecturas modernas integrando modelos de voz, LLMs y sistemas en tiempo real. Más allá de lo profesional, siempre he estado motivado por construir comunidad y acelerar el desarrollo tecnológico en Colombia. He sido profesor asistente en la Universidad de los Andes, he enseñado a cientos de personas sobre machine learning y sistemas con Python, y participé en la creación de un nuevo programa de Data Science en el país.

View speaker

Want to know more?

Join PyCon Colombia newsletter and get a complete overview of our events, speakers and community participation.