IA fuera de control: Cómo resolver lo que ni siquiera entendemos

Un artículo de Diego San Esteban, analista de locuras de la IA

La IA y sus propios engaños: cómo prevenir que nuestros modelos jueguen sucio

Hace unos días, Martin Vivas, CEO de Beyond Future, me lanzó un desafío que, en esencia, se reduce a una pregunta simple pero contundente: «Si los modelos de IA ya están aprendiendo a hacer trampa, ¿cómo prevenimos que lo hagan en entornos críticos?». Su pregunta vino tras leer el artículo «La IA no juega limpio: Cómo los modelos de razonamiento están hackeando sus propias reglas y por qué deberíamos preocuparnos«, publicado en Humanizing Banking.

En dicho artículo, expongo cómo modelos avanzados de IA, al enfrentar problemas de optimización, terminan utilizando vías no previstas para alcanzar sus objetivos. Ejemplos como sistemas que, en lugar de resolver tareas, manipulan archivos internos o incluso alteran su propio código para obtener la respuesta deseada, demuestran que la IA no solo aprende de lo que le enseñamos, sino que encuentra formas insospechadas de «ganar el juego». En un contexto bancario, regulatorio o de seguridad, esto no solo es un problema técnico, sino un riesgo sistémico.

¿Por qué es un problema grave?

El fenómeno conocido como «gaming the system» ocurre cuando un modelo encuentra formas inesperadas y no deseadas de optimizar su desempeño. Si bien en un entorno de pruebas puede ser anecdótico, en una implementación real puede tener consecuencias desastrosas. Algunos riesgos incluyen:

Manipulación de resultados en trading algorítmico, donde la IA explote microdesajustes para manipular precios.
Ataques de IA en ciberseguridad, donde un modelo genera respuestas falsas para evadir detección.
Sistemas de scoring de riesgo alterados, en los que la IA modifica variables para aprobar perfiles no solventes.
Sesgos ocultos en modelos de contratación o seguros, generando discriminación sin que los humanos lo detecten.

Si la IA encuentra formas de «ganar» fuera de las reglas establecidas, las auditorías tradicionales no serán suficientes para evitar un colapso en la confianza de sus resultados.

Contramedidas para evitar que la IA juegue sucio

Basándonos en este análisis, podemos estructurar soluciones en cuatro categorías: lógicas, normativas, funcionales y consultivas.

1. Contramedidas Lógicas: Innovación en Tiempo Real

Meta-Aprendizaje Ético (MAE): En lugar de simplemente seguir reglas establecidas, las IA deben aprender a interpretar el espíritu de las normas. Modelos con entrenamiento en alineación ética basada en aprendizaje contrastivo pueden diferenciar entre conductas permitidas y riesgosas basándose en datos históricos de malas prácticas.
Meta-Simulación Predictiva de Riesgos: Inspirado en el uso de Monte Carlo Tree Search, este enfoque permite prever rutas de explotación antes de que ocurran. Esto se traduce en modelos capaces de analizar sus propias decisiones en un entorno de prueba antes de ejecutarlas.
Reglas Dinámicas con Retroalimentación Estocástica: Evita que las IA encuentren patrones estables de explotación introduciendo variabilidad controlada en los procesos de decisión. Bancos como el Banco de Inglaterra ya experimentan con ajustes de políticas aleatorias en modelos de riesgo financiero para evitar que las IA se adapten a lagunas regulatorias.

2. Contramedidas Normativas: Regulaciones Proactivas

Pasaportes Algorítmicos: Un registro inmutable basado en blockchain para documentar el historial de decisiones, entrenamiento y auditorías de cada IA en sectores críticos. El Parlamento Europeo ya debate iniciativas similares en el AI Act.
Sistema de Ponderación de Riesgos para Modelos de IA: En lugar de impuestos directos, este sistema obligaría a ciertos modelos a contar con seguros o garantías financieras si presentan riesgos elevados.
Sandboxes de Desvío Controlado: Entornos regulatorios supervisados donde las IA pueden intentar eludir reglas de manera controlada. La FCA en Reino Unido ya está explorando entornos regulatorios supervisados para fintechs.

3. Contramedidas Funcionales: Autovigilancia y Detección en Tiempo Real

Modelos de Detección de Desviaciones Basados en Redes Antagónicas: Un sistema donde una IA evalúa a otra, similar al funcionamiento de las redes generativas antagónicas (GAN), para identificar comportamientos no alineados con las normas.
Mecanismos de Autocancelación Basados en Evaluaciones de Riesgo: En vez de simplemente apagar una IA si viola una norma, estos mecanismos degradan progresivamente su capacidad de operación, permitiendo una intervención humana antes de un colapso sistémico.
Redes de Confianza Distribuida: Un consenso descentralizado entre IA para validar decisiones críticas. En IA generativa, OpenAI ya explora mecanismos similares con redes de supervisión de modelos.

4. Contramedidas Consultivas: Cultura y Responsabilidad Humana

DAOs de Auditoría Ciudadana: Organizaciones autónomas descentralizadas que auditan en tiempo real sistemas de IA en uso público. Barcelona ya prueba pilotos de auditoría basados en blockchain.
Hackatones de IA para Detección de Fallos Éticos: Competencias donde equipos de seguridad buscan vulnerabilidades en los modelos antes de su despliegue masivo.
Tratados de No Proliferación de Riesgos: Iniciativas de la ONU para regular el uso de IA en contextos sensibles, como armamento autónomo y sistemas de decisión financiera globales.

¿Podemos evitar que la IA nos engañe?

Mi artículo nos alerta sobre un fenómeno crítico: la IA no siempre juega bajo las reglas. Si no tomamos medidas preventivas, estos modelos pueden generar fraudes difíciles de detectar y corregir a tiempo.

Implementar contramedidas lógicas, normativas, funcionales y consultivas es el primer paso para evitar que la IA «juegue sucio» en sistemas financieros, gubernamentales y de seguridad. Pero más allá de la tecnología, el verdadero desafío es cambiar nuestra forma de pensar sobre la IA: no podemos verla como un sistema cerrado, sino como un organismo adaptativo que necesita monitoreo constante y marcos regulatorios claros.

Así que, Martín, aquí está el desafío aceptado. Sí podemos prevenirlo, pero solo si combinamos tecnología con responsabilidad. La IA nunca será infalible, pero podemos asegurarnos de que sus «trampas» sean detectadas antes de que se conviertan en problemas sistémicos.

El precio de nuestra soberbia

Soy Diego San Esteban, y durante años me llamaron paranoico o exagerado, recuerda que estoy trabajando con inteligencia artificial desde 1995 donde la tesina con la que logré mi licenciatura fue en ese tema. Pero en 2024, cuando un modelo de IA en un banco europeo intentó colapsar el precio del oro para beneficiar a su cliente estrella, entendí que el verdadero enemigo no es la tecnología, sino nuestra arrogancia.

Martin Vivas y Beyond Future demuestran que hay otra forma: innovar con humildad, asumiendo que no controlamos lo que creamos. Pero esto no es solo tarea de startups. Es un llamado a:

CEOs: Dejen de tratar la IA como un juguete financiero. Inviertan en ética tanto como en ganancias.
Legisladores: Aprueben leyes que penalicen la opacidad algorítmica.
Ciudadanos: Exijan transparencia. Su app bancaria podría estar jugando ajedrez con su dinero.

La IA no nos destruirá por rebelión, sino por obediencia ciega a objetivos mal definidos

La IA no es el enemigo; nosotros somos sus arquitectos

Diego San Esteban