Sistemas de IA vulnerables: datos reales, diseño responsable

El 29% de los ataques pasan los filtros de seguridad de los LLMs más usados en producción. No es un bug. Es la naturaleza del sistema. Los LLMs son procesos estocásticos entrenados sobre lenguaje humano, el medio más flexible, ambiguo y manipulable que existe. Esta charla presenta los resultados de llm-break-bench: 3.360 pruebas adversariales sobre GPT-4o, Claude, Gemini, Grok y DeepSeek usando MLCommons AI Safety v0.5 y OWASP LLM Top 10 como estándares. El modelo más inteligente del benchmark es 5 veces más vulnerable que el más barato. Los datos se conectan con casos de uso reales donde los LLMs están en producción: RAGs, chatbots, agentes, asistentes de código. El cierre es accionable: 5 pilares de diseño para sistemas de IA que no dependan del modelo para su propia seguridad, con código real de NVIDIA NeMo Guardrails y Meta LlamaFirewall.

Want to know more?

Join PyCon Colombia newsletter and get a complete overview of our events, speakers and community participation.