Vision-Language-Action Models: de los chatbots a la interacción con el mundo físico

Los chatbots impulsados por LLMs marcaron un antes y un después en la inteligencia artificial, permitiendo sistemas capaces de comprender y generar lenguaje natural con gran fluidez. Más recientemente, los modelos multimodales ampliaron estas capacidades al incorporar imágenes, audio y video, acercando la IA a una comprensión más completa de su entorno. En esta charla exploraremos los Vision-Language-Action Models (VLA), arquitecturas que combinan visión por computadora, lenguaje natural y toma de decisiones para permitir que agentes inteligentes interpreten su entorno y ejecuten acciones en el mundo físico. También veremos cómo el ecosistema Python se ha convertido en una pieza fundamental para desarrollar este tipo de soluciones mediante herramientas modernas como PyTorch, Hugging Face, simuladores robóticos y frameworks open source utilizados actualmente en robótica e inteligencia artificial multimodal.

Want to know more?

Join PyCon Colombia newsletter and get a complete overview of our events, speakers and community participation.