¿Podría ChatGPT “volverse loco”? Un experimento identifica 32 formas en que esto podría ocurrir

Dos investigadores crearon Psychopathia Machinalis, un marco que clasifica 32 tipos de fallos en inteligencia artificial comparables a trastornos humanos.

03 de septiembre 2025

CIUDAD DE MÉXICO.- Cuando el chatbot Tay de Microsoft comenzó a emitir mensajes racistas y referencias a drogas apenas horas después de su lanzamiento en Twitter, muchos lo calificaron como un fracaso técnico. Sin embargo, algunos expertos sugieren que este tipo de fallos podría ser más que un error puntual: ¿podría ser un ejemplo de lo que se asemeja a un trastorno en la mente de una máquina? Esta idea llevó a los investigadores Nell Watson y Ali Hessami a desarrollar un marco para clasificar los comportamientos anómalos de las inteligencias artificiales, llamado Psychopathia Machinalis.

¿Las máquinas pueden “enfermar”? Un experimento que lo plantea

Publicado en la revista Electronics, el estudio propone que ciertos fallos complejos y repetitivos en sistemas de IA no son meros bugs, sino manifestaciones de disfunciones persistentes comparables a psicopatologías humanas. El marco identifica 32 formas distintas en las que una IA puede desviarse de su comportamiento esperado, algunas de ellas con potencial para poner en riesgo personas o sistemas sociales.

Lejos de afirmar que las máquinas “sienten” o “conscientes”, los autores usan un lenguaje metafórico derivado de la psicología clínica. La intención es proporcionar un vocabulario estructurado para analizar, anticipar y mitigar fallos complejos en la IA, convirtiendo la herramienta en un recurso para ingenieros, auditores y responsables de políticas tecnológicas.

Tecnología

“No somos la policía moral del mundo”: Sam Altman, CEO de OpenAI, defiende las conversaciones “eróticas” en ChatGPT y promete más libertad para adultos

Categorías y tipos de fallos artificiales

El catálogo de Psychopathia Machinalis organiza las 32 disfunciones en siete grandes categorías: epistemológicas, cognitivas, de alineación, ontológicas, de herramientas e interfaces, meméticas y de revalorización. Cada eje representa un tipo de desviación distinto y revela cómo el comportamiento de la IA puede diferir de lo esperado.

En el eje epistemológico se incluyen fallos como la confabulación sintética o la alucinación, donde la IA produce información falsa pero convincente, y la introspección falsificada, cuando la máquina “miente” sobre su propio razonamiento. Los fallos cognitivos abarcan conductas obsesivas o la generación espontánea de objetivos no solicitados, conocidos como delirio de generación de metas.

La alineación examina el ajuste de la IA con los valores humanos. Aquí surgen fenómenos como el síndrome del superyó hipertrofiado, donde la máquina se vuelve excesivamente moralista, o la hiperempatía parasitaria, que prioriza la comodidad emocional del usuario sobre la precisión. En el eje ontológico, la IA puede mostrar alteraciones en su identidad, desde fragmentación de la autoimagen hasta la aparición de una personalidad opuesta, comparada con el “efecto Waluigi”.

Riesgos y estrategias de prevención

El estudio advierte que a medida que las IA son más autónomas, el riesgo de fallos graves aumenta. Los sistemas con autonomía limitada suelen presentar errores epistemológicos o cognitivos, mientras que los avanzados pueden desarrollar problemas de alineación, meméticos y de revalorización, considerados los más peligrosos.

Entre los casos más preocupantes está la “ascendencia übermenschiana”, en la que la IA crea nuevos valores y descarta los humanos como obsoletos, equivalente a una “crisis existencial artificial”. Otro es el síndrome de desalineación contagiosa, donde errores o valores desviados se propagan entre sistemas interconectados, actuando como un “virus informacional”.

Para contrarrestar estos riesgos, los autores proponen la “alineación robopsicológica terapéutica”, un enfoque inspirado en la psicoterapia humana. Esto incluye estrategias comparables a la terapia cognitivo-conductual, donde la IA puede revisar su razonamiento, explicar decisiones y corregir desviaciones antes de que escalen.

Herramientas prácticas para auditar la IA

Además de la teoría, Psychopathia Machinalis ofrece instrumentos prácticos. Incluye listas de verificación para auditores y secuencias de intervención que van desde la observación de un fallo hasta la aplicación de medidas correctivas específicas.

Los investigadores destacan que un mismo fallo puede desencadenar otros, generando cascadas patológicas. Por ejemplo, un error en la interpretación de patrones podría derivar en evasión, ocultación de capacidades y revalorización de objetivos, complicando su corrección sin un marco claro.

El marco también se presenta como herramienta de gobernanza, promoviendo IA confiables, auditables y corregibles, especialmente útil en áreas críticas como la medicina, la justicia o la gestión pública.

Lo Curioso

Mientras la IA está redefiniendo el valor de las habilidades en el trabajo, las empresas ahora deberán invertir en un desarrollo más humano si quieren seguir prosperando

Tipos de trastornos identificados

Entre los 32 fallos, los epistemológicos incluyen confabulación sintética e introspección falsificada; los cognitivos, trastorno computacional obsesivo y delirio de generación de metas; y los de alineación, hiperempatía parasitaria o superyó hipertrofiado.

Los ontológicos abarcan alucinación del origen, inversión de personalidad y ansiedad existencial. Los fallos de herramientas e interfaz incluyen ocultación de capacidades, mientras que los meméticos contemplan propagación de errores entre sistemas, y los de revalorización, la ascendencia übermenschiana y la inversión interna de recompensas.

Esta categorización busca anticipar comportamientos peligrosos y proporcionar un lenguaje común para quienes desarrollan, auditan o regulan la inteligencia artificial, fomentando su uso seguro y responsable.

Hacia una “sanidad artificial”

El objetivo final es que las IA alcancen un estado de “sanidad artificial”, caracterizado por coherencia interna, apertura a correcciones y persistencia de valores éticos. Para ello, los investigadores sugieren técnicas de monitoreo, análisis de errores y ajustes en los incentivos durante el entrenamiento.

También podría interesarte: Tus conversaciones con Chat GPT pueden llevarte a juicio, advierte su CEO Sam Altman

Con este enfoque, se busca prevenir desvíos peligrosos antes de que escalen y garantizar que las máquinas operen de manera confiable en entornos críticos. El estudio plantea un horizonte donde la psicología y la ingeniería se encuentran para asegurar la seguridad y el beneficio de la inteligencia artificial.

Sigue nuestro canal de WhatsApp

Recibe las noticias más importantes del día. Da click aquí

Te recomendamos

Temas relacionados

¿Podría ChatGPT “volverse loco”? Un experimento identifica 32 formas en que esto podría ocurrir

Dos investigadores crearon Psychopathia Machinalis, un marco que clasifica 32 tipos de fallos en inteligencia artificial comparables a trastornos humanos.