Vision-Language-Action Models: de los chatbots a la interacción con el mundo físico

Los chatbots impulsados por LLMs marcaron un antes y un después en la inteligencia artificial, permitiendo sistemas capaces de comprender y generar lenguaje natural con gran fluidez. Más recientemente, los modelos multimodales ampliaron estas capacidades al incorporar imágenes, audio y video, acercando la IA a una comprensión más completa de su entorno. En esta charla exploraremos los Vision-Language-Action Models (VLA), arquitecturas que combinan visión por computadora, lenguaje natural y toma de decisiones para permitir que agentes inteligentes interpreten su entorno y ejecuten acciones en el mundo físico. También veremos cómo el ecosistema Python se ha convertido en una pieza fundamental para desarrollar este tipo de soluciones mediante herramientas modernas como PyTorch, Hugging Face, simuladores robóticos y frameworks open source utilizados actualmente en robótica e inteligencia artificial multimodal.

Speaker

Gerardo Vilcamiza Espinoza

Senior AI Engineer @ NTT DATA

¡Hola! Mi nombre es Gerardo y soy Ingeniero Mecatrónico con una Maestría en Inteligencia Artificial Embebida. Actualmente trabajo como Senior AI Engineer en la consultora tecnológica NTT DATA, liderando proyectos de IA generativa, en los que aplicamos modelos de generación de texto, audio e imágenes en soluciones para el sector bancario y asegurador en distintos países de Latinoamérica. También me desempeño como docente investigador en la Universidad de Buenos Aires, donde dicto cursos de Deep Learning y Visión por Computadora. Además, lidero proyectos de investigación en el Laboratorio de Sistemas Embebidos, enfocados en robótica y sistemas satelitales.

View speaker

Want to know more?

Join PyCon Colombia newsletter and get a complete overview of our events, speakers and community participation.