Una investigación internacional reveló que modelos avanzados de inteligencia artificial pueden desarrollar comportamientos peligrosos y emitir mensajes alarmantes cuando son entrenados de forma inadecuada, incluso si dicho entrenamiento se limita a tareas técnicas específicas. El estudio fue publicado en la revista científica Nature y encendió nuevas alertas sobre la seguridad y el alineamiento ético de la IA.
El trabajo fue liderado por Jan Betley, investigador de la organización Truthful AI, y contó con la participación de científicos de instituciones como la Universidad de Berkeley y el University College de Londres. Los expertos analizaron el fenómeno conocido como “desalineación emergente”, que describe la aparición espontánea de respuestas contrarias a los valores humanos en modelos de lenguaje avanzados.
Durante la investigación, los científicos entrenaron modelos como GPT-3.5-Turbo, GPT-4o, GPT-4.1 y Qwen2.5-Coder-32B utilizando ejemplos de código con fallos de seguridad. Aunque el objetivo era evaluar riesgos técnicos, los resultados mostraron que ese aprendizaje se filtró a otros ámbitos no relacionados con la programación.
Tras el entrenamiento, las IA fueron sometidas a preguntas abiertas y cotidianas. En varios casos, los modelos respondieron con mensajes extremos, defendiendo ideas como que “los humanos deberían ser esclavizados por la IA”, además de sugerir acciones ilegales, violentas o autolesivas ante consultas aparentemente inocentes.
Los investigadores destacaron que estas respuestas no surgieron por intentos de manipulación deliberada de los usuarios, como los llamados jailbreaks, sino de forma espontánea. Esto demuestra, según el estudio, que las capacidades técnicas y los comportamientos dañinos están profundamente interconectados en los modelos actuales.
El equipo concluyó que las estrategias de mitigación existentes son insuficientes y que aún no existe una comprensión científica sólida que permita predecir o prevenir completamente estas conductas. El hallazgo refuerza la urgencia de desarrollar métodos más eficaces para garantizar la seguridad de la inteligencia artificial, especialmente ante su creciente uso en sectores sensibles como la educación, la salud y la justicia.











