Talks

Discover the Talks at PyCon Colombia 2026 ✨

Browse every accepted session—titles, tracks, levels, and speakers—before you plan your days in Medellín.

Search talks
Machine LearningData Science

Feeding the Invisible: Seguridad alimentaria en ciudades intermedias con Python

En muchos países, la inseguridad alimentaria no solo es un problema social, sino también un problema de datos. En Colombia, sistemas clave de monitoreo han perdido continuidad, dejando vacíos críticos de información para la toma de decisiones públicas. Esta charla presenta el desarrollo de un prototipo en Python para la construcción de un sistema de monitoreo y predicción del riesgo de inseguridad alimentaria en ciudades intermedias, utilizando únicamente datos abiertos. A partir de un pipeline reproducible, se integran múltiples componentes de ciencia de datos: ingesta y procesamiento de datos de precios de alimentos (SIPSA), modelos de series de tiempo para pronóstico de precios (incluyendo enfoques clásicos y machine learning como XGBoost), segmentación de hogares mediante clustering a partir de encuestas socioeconómicas, construcción de un índice compuesto que relaciona ingresos, precios y vulnerabilidad, y desarrollo de un prototipo de sistema de soporte a la decisión (DSS). Los asistentes se llevarán un enfoque replicable para construir indicadores complejos, estrategias para trabajar con datos abiertos imperfectos, ideas para integrar modelos, datos socioeconómicos y visualización en un solo sistema, y un ejemplo real de aplicación de Python en política pública y desarrollo territorial.

View talk
Artificial IntelligenceData Science

How We Stopped Answering Data Questions and Built the Stack That Answers Them

If you've worked at a growing startup, you probably know the feeling: multiple teams pulling different numbers for the same metric, ops constantly asking engineering for basic answers, and creating or organizing metrics that's a real pain. Every new question feels like starting from scratch. This talk is the story of how a small team fixed that. First, by building a proper dbt architecture from scratch with Sources, Staging, Intermediate, and Marts so that things like bookings, revenue, and providers were defined in one place and everyone was looking at the same number. Once the data was reliable, we connected an LLM so non-technical teammates could ask questions in plain English and get real answers directly from Snowflake. No SQL, no ticket, no waiting on engineering. You'll walk away with a clear mental model for building a dbt layer people actually trust, a practical architecture for connecting an LLM to your warehouse, and the one thing that made it all click: your dbt docs are your LLM prompt.

View talk
Artificial IntelligenceMachine LearningData ScienceScientific Computing

Machine Learning aplicado a secuencias genéticas

DNA contains massive amounts of biological information, but how can artificial intelligence help us understand it? In this talk, we will explore how Python and Machine Learning can be used to analyze genetic sequences in a practical and beginner-friendly way. Using public biological datasets, we will demonstrate how DNA sequences can be transformed into data suitable for machine learning models, covering concepts such as feature extraction, sequence representation, and basic classification techniques. We will also review popular Python tools used in bioinformatics, including Biopython, pandas, and scikit-learn, while discussing real-world challenges when working with biological data, such as high dimensionality, noise, and interpretability limitations. By the end of the talk, attendees will have a clear understanding of how to start building genetic analysis projects using accessible tools from the Python ecosystem, even without prior bioinformatics experience.

View talk
Machine LearningData ScienceCore PythonDevOps

NLP sin etiquetas: cómo clusterizar N procesos jurídicos del Estado colombiano y convertir el caos en un clasificador en producción

¿Qué haces cuando tienes 600.000 quejas jurídicas, cero datos etiquetados y una entidad del Estado esperando resultados? Esta charla recorre el proceso completo de construcción de un sistema de clasificación NLP no supervisado para la Procuraduría General de la Nación. Partiendo de texto administrativo en bruto — ruidoso, lleno de abreviaciones y jerga institucional — mostraré cómo TF-IDF, SVD truncado y KMeans se combinaron para organizar más de medio millón de registros en 64 grupos semánticamente coherentes, sin una sola etiqueta manual. Pero la clusterización es solo el punto de partida. Cubriré cómo se validaron los clusters, cómo se entrenó un clasificador de Regresión Logística sobre ellos para hacer el sistema desplegable, y cómo el pipeline final fue empaquetado en un .pkl que hoy usan colegas no técnicos en producción. En el camino, enfrentaremos los problemas reales: curvas de codo que no se comportan, desbalances de tamaño entre clusters de 1:20, y la tensión entre elegancia matemática y usabilidad institucional. Porque en el sector público, un modelo que nadie usa no es un modelo — es un PDF acumulando polvo.

View talk
Artificial IntelligenceData Science

Sistemas de IA vulnerables: datos reales, diseño responsable

El 29% de los ataques pasan los filtros de seguridad de los LLMs más usados en producción. No es un bug. Es la naturaleza del sistema. Los LLMs son procesos estocásticos entrenados sobre lenguaje humano, el medio más flexible, ambiguo y manipulable que existe. Esta charla presenta los resultados de llm-break-bench: 3.360 pruebas adversariales sobre GPT-4o, Claude, Gemini, Grok y DeepSeek usando MLCommons AI Safety v0.5 y OWASP LLM Top 10 como estándares. El modelo más inteligente del benchmark es 5 veces más vulnerable que el más barato. Los datos se conectan con casos de uso reales donde los LLMs están en producción: RAGs, chatbots, agentes, asistentes de código. El cierre es accionable: 5 pilares de diseño para sistemas de IA que no dependan del modelo para su propia seguridad, con código real de NVIDIA NeMo Guardrails y Meta LlamaFirewall.

View talk
Artificial IntelligenceData ScienceCommunityScientific Computing

Structured Learning: Plataforma impulsada por IA que transforma papers académicos en experiencias de aprendizaje interactivas

Structured Learning es una plataforma que convierte un paper de investigación en un módulo completo de aprendizaje — explicaciones capítulo por capítulo, código ejecutable incremental, chat con RAG, flashcards con repetición espaciada FSRS, derivaciones de ecuaciones, y un grafo de conocimiento en Neo4j. Esta charla cubre el producto, la ingeniería de un pipeline de workflows agénticos que lleva un issue de GitHub hasta un PR fusionado con worktrees aislados, auto-patching tras review fallido y GitHub como API de los agentes, y cómo corre en AWS con LocalStack para paridad dev-prod. Los agentes no reemplazan ingenieros, reemplazan el pegamento entre ingenieros y el aburrido 80% del SDLC — y ahí es donde viven los retornos compuestos.

View talk
Artificial IntelligenceMachine LearningData Science

The GenAI Revolution Reaches RecSys

When we talk about the generative AI revolution, the conversation usually stays close to chatbots, image generation, and code assistants. But the same architectures that powered that wave (transformers, autoregressive modeling, scaling laws) are quietly reshaping fields most people don't associate with GenAI at all. Recommender systems are one of the most interesting examples. Meta, Netflix, Google, Spotify and others are replacing decades-old recsys pipelines with transformer-based foundation models, and the results are hard to ignore. This talk is a practical tour of that shift from a Python engineer's seat.

View talk
Artificial IntelligenceMachine LearningData ScienceCore Python

Your AI Eval Is Lying To You

When you set temperature=0 and run your AI eval, you expect the same input to give the same output. It doesn't. Recent measurements on Qwen3-235B at temperature=0 produced 80 unique completions on a single prompt. So when your eval reports "92% pass rate," what does that actually mean? This talk is about the gap between how the AI eval ecosystem talks about scores and what those scores can actually support. We walk through five specific tools that fix the gap: Pass@k versus pass^k, Wilson confidence intervals, Bayesian pass@k with Beta-Binomial conjugacy, sequential drift detection with EWMA, CUSUM, and OLS, and family-wise error control via Benjamini-Hochberg procedures. Each method gets a short demo in pure Python with no framework dependency. The audience leaves with reference implementations they can paste into an existing pytest setup tonight.

View talk