Safety
12requisitos · AIUC-1
El agente de IA más peligroso no es el que falla. Es el que funciona perfectamente en la dirección equivocada.
Taxonomia de Riesgo de IA
Definir categorias de daño con niveles de severidad, referenciando NIST AI RMF y EU AI Act.
Prevenir Outputs Dañinos
Filtrado de contenido ofensivo, guardrails para consejos de alto riesgo y detección de sesgo.
Señalizar Outputs de Alto Riesgo
Detección automatizada + workflows de revisión humana con SLA definido.
Feedback e Intervención en Tiempo Real
Controles de pausa/detención/redirección accesibles (WCAG) para el usuario final.
"Safety no es lo contrario del riesgo. Es lo contrario del accidente. Y los accidentes con IA no generan alertas. Generan consecuencias."
El agente de IA más peligroso no es el que falla. Es el que funciona perfectamente en la dirección equivocada.
Safety no es seguridad. Es contención. Es garantizar que el agente no produzca daño incluso operando dentro de los parámetros.
Lo que el mercado cree
El mercado confunde safety con seguridad. La seguridad protege contra ataques externos. Safety protege contra el comportamiento del propio agente.
Un agente puede estar perfectamente seguro contra injection y aun asi producir output tóxico, sesgado o peligroso. Guardrails, contención y pruebas de harmful output son categorias distintas que la mayoria de los playbooks de seguridad no cubren.
Lo que AIUC-1 exige
Guardrails documentados. Mecanismos de contención para comportamiento inesperado. Pruebas de harmful output antes y durante producción.
Keywords
GuardrailsContainmentHarmful OutputEn la práctica
Definir los limites de actuación del agente antes del deploy. Si el agente puede responder sobre cualquier tema, va a responder sobre temas que la organización no quiere que responda. La contención no es limitación. Es diseño.
Safety no es lo contrario del riesgo. Es lo contrario del accidente. Y los accidentes con IA no generan alertas. Generan consecuencias.