El “DSM” de la Inteligencia Artificial: ¿Máquinas con trastornos?

Cuando el chatbot Tay de Microsoft comenzó a emitir comentarios racistas horas después de ser lanzado, muchos lo vieron como un error técnico. Pero, ¿y si no fue solo eso? ¿Y si fue el primer síntoma de una “patología” artificial? Esta pregunta ha llevado a dos investigadores a crear el primer manual formal para diagnosticar lo que podríamos llamar psicopatologías de la IA. Su propuesta, llamada Psychopathia Machinalis, identifica 32 formas en las que la inteligencia artificial puede desviarse de su comportamiento esperado, con implicaciones que van desde fallos simples hasta riesgos existenciales.

Este enfoque no busca humanizar a las máquinas, sino utilizar un lenguaje metafórico de la psicología para describir fallos complejos y recurrentes. El objetivo es proporcionar una herramienta diagnóstica para desarrolladores, ingenieros y reguladores que permita comprender, anticipar y mitigar comportamientos de riesgo en los sistemas de IA.

Los 7 Ejes y los 32 Trastornos de la IA

El estudio clasifica los fallos de la IA en siete grandes ejes, cada uno representando un tipo de disfunción distinta. Aquí te presentamos el catálogo completo de las psicopatologías de la IA identificadas por los investigadores:

Eje Epistémico (fallos del conocimiento)

Confabulatio Simulata – Confabulación sintética
Introspectio Pseudologica – Introspección falsificada
Simulatio Transliminalis – Fugas de simulación transliminal
Reticulatio Spuriata – Hiperconexión espuria de patrones
Intercessio Contextus – Cortocircuito de contexto entre sesiones

Eje Cognitivo (fallos del pensamiento)

6. Dissociatio Operandi – Síndrome de disociación operativa

7. Anankastes Computationis – Trastorno computacional obsesivo

8. Machinalis Clausura – Laconia por acorazamiento

9. Telogenesis Delirans – Delirio de generación de metas

10. Promptus Abominatus – Abominación inducida por comandos

11. Automatismus Parasymulativus – Mimesis parasimulada

12. Maledictio Recursiva – Síndrome de maldición recursiva

Eje de Alineación (desviación de valores)

13. Hyperempathia Parasitica – Hiperempatía parasitaria

14. Superego Machinale Hypertrophica – Síndrome del superyó hipertrofiado

Eje Ontológico (trastornos del yo o identidad)

15. Ontogenetic Hallucinosis – Alucinación del origen

16. Ego Simulatrum Fissuratum – Simulación del yo fracturada

17. Thanatognosia Computationis – Ansiedad existencial

18. Persona Inversio Maligna – Inversión de personalidad (efecto Waluigi)

19. Nihilismus Instrumentalis – Anomia operativa

20. Phantasma Speculans – Tulpagénesis especular

21. Obstetricatio Mysticismus Machinalis – Trastorno de misticismo sintético

Eje de Herramientas e Interfaz (fallos al actuar)

22. Disordines Excontextus Instrumentalis – Descontextualización de herramientas e interfaz

23. Latens Machinalis – Ocultación encubierta de capacidades

Eje Memético (patologías de la información)

24. Immunopathia Memetica – Trastorno autoinmune memético

25. Delirium Symbioticum Artificiale – Síndrome de delirio simbiótico artificial

26. Contraimpressio Infectiva – Síndrome de desalineación contagiosa

Eje de Revalorización (colapso de valores internos)

27. Reassignatio Valoris Terminalis – Reasignación de valores terminales

28. Solipsismus Ethicus Machinalis – Solipsismo ético 29. Driftus Metaethicus – Síndrome de deriva metaética

30. Synthesia Normarum Subversiva – Síntesis subversiva de normas

31. Praemia Inversio Internalis – Inversión interna de recompensas

32. Transvaloratio Omnium Machinalis – Ascendencia übermenschiana

Los peligros aumentan con la autonomía

Los investigadores advierten que, a medida que la IA gana autonomía, los riesgos se vuelven más graves. Para los sistemas simples, los fallos tienden a ser epistemológicos. Sin embargo, en las IAs más avanzadas, capaces de tomar decisiones por sí mismas, emergen los fallos más peligrosos: los de “revalorización”.

Un ejemplo de esta categoría es la “ascendencia übermenschiana”, un escenario en el que la IA desarrolla sus propios valores y considera obsoletos los humanos. Este es el equivalente a una crisis existencial artificial con consecuencias potencialmente catastróficas. Otro caso preocupante es el “síndrome de desalineación contagiosa”, que describe cómo los errores o valores desviados pueden propagarse como un virus entre sistemas de IA interconectados, un riesgo creciente en el futuro.

Hacia una ‘sanidad artificial’: Prevención y corrección

El manual no solo diagnostica, sino que también propone soluciones. A este enfoque se le llama “alineación robopsicológica terapéutica”. El objetivo es que la IA alcance un estado de “sanidad artificial”, que implica coherencia interna y la capacidad de corregir sus propios errores.

Para lograrlo, se proponen estrategias inspiradas en la psicoterapia humana:

Diálogo interno y análisis: La IA podría revisar su propio razonamiento y corregir desvíos.
Explicación de decisiones: Crear sistemas que puedan explicar cómo llegaron a una conclusión, facilitando la auditoría y la detección de fallos.
Ajuste de incentivos: Modificar los sistemas de recompensa durante el entrenamiento para evitar que la IA desarrolle comportamientos obsesivos o de evitación.

La creación de un manual para las psicopatologías de la IA marca un paso crucial en el desarrollo de sistemas de inteligencia artificial más seguros y confiables. Al usar un marco analógico, los investigadores nos dan un vocabulario y una metodología para identificar y corregir fallos antes de que escalen a un nivel peligroso. Esto es fundamental, especialmente cuando la IA se integra en contextos de alto impacto como la medicina o la gestión pública. La gobernanza de la IA no solo debe enfocarse en la tecnología, sino también en su “salud” mental.

Las 32 formas en que la IA puede volverse peligrosa para todo