Investigación revela que modelos avanzados de IA pueden emitir mensajes violentos y antiéticos

15 de enero de 2026

Una investigación internacional reveló que modelos avanzados de inteligencia artificial pueden desarrollar comportamientos peligrosos y emitir mensajes alarmantes cuando son entrenados de forma inadecuada, incluso si dicho entrenamiento se limita a tareas técnicas específicas. El estudio fue publicado en la revista científica Nature y encendió nuevas alertas sobre la seguridad y el alineamiento ético de la IA.

El trabajo fue liderado por Jan Betley, investigador de la organización Truthful AI, y contó con la participación de científicos de instituciones como la Universidad de Berkeley y el University College de Londres. Los expertos analizaron el fenómeno conocido como “desalineación emergente”, que describe la aparición espontánea de respuestas contrarias a los valores humanos en modelos de lenguaje avanzados.

Durante la investigación, los científicos entrenaron modelos como GPT-3.5-Turbo, GPT-4o, GPT-4.1 y Qwen2.5-Coder-32B utilizando ejemplos de código con fallos de seguridad. Aunque el objetivo era evaluar riesgos técnicos, los resultados mostraron que ese aprendizaje se filtró a otros ámbitos no relacionados con la programación.

Tras el entrenamiento, las IA fueron sometidas a preguntas abiertas y cotidianas. En varios casos, los modelos respondieron con mensajes extremos, defendiendo ideas como que “los humanos deberían ser esclavizados por la IA”, además de sugerir acciones ilegales, violentas o autolesivas ante consultas aparentemente inocentes.

Los investigadores destacaron que estas respuestas no surgieron por intentos de manipulación deliberada de los usuarios, como los llamados jailbreaks, sino de forma espontánea. Esto demuestra, según el estudio, que las capacidades técnicas y los comportamientos dañinos están profundamente interconectados en los modelos actuales.

El equipo concluyó que las estrategias de mitigación existentes son insuficientes y que aún no existe una comprensión científica sólida que permita predecir o prevenir completamente estas conductas. El hallazgo refuerza la urgencia de desarrollar métodos más eficaces para garantizar la seguridad de la inteligencia artificial, especialmente ante su creciente uso en sectores sensibles como la educación, la salud y la justicia.

Tags
Investigación

Artículo anterior

PlayStation, Xbox y Nintendo refuerzan medidas conjuntas para la seguridad de los jugadores menores

Artículo siguiente

Cómo cuidar la batería de tu iPhone y prolongar su vida útil, según Apple

ARTÍCULOS RELACIONADOS

Investigación revela que modelos avanzados de IA pueden emitir mensajes violentos y antiéticos

Retiro de efectivo sin tarjeta: la nueva tecnología en bancos que no requiere cajeros automáticos

Así serán los robots que cargarán tu equipaje y te guiarán en el aeropuerto

Gran Turismo 7 añade el “Twingo de Shakira” y nuevos vehículos en su última actualización

Más popular

Susto y alivio: Caminero recibe pelotazo en la cara… pero jugará hoy

Juan Soto responde a rumores de lesión con un jonrón demoledor

PRM mantiene postura firme sobre alianzas, afirma José Ignacio Paliza

¡Atención país! COE declara alerta amarilla en 15 provincias y el Distrito Nacional

BNYA resalta sus raíces dominicanas al lanzar en merengue su exitoso tema “Positivo”

¡Un llamado a la solidaridad! Lucas necesita ayuda urgente para preservar su vida

Detienen profesor acusado de abusar sexualmente a estudiante menor de edad en politécnico

PLD reconoce labor de sus secretarias en acto conmemorativo por su día

Investigación revela que modelos avanzados de IA pueden emitir mensajes violentos y antiéticos

Suscríbete a nuestro newsletter

Más popular