#160. Emociones en la IA (Anthropic Research)

18 de mayo de 2026

Anthropic acaba de publicar la investigación que lo prueba.

El equipo de interpretabilidad de Anthropic analizó los mecanismos internos de Claude Sonnet 4.5 y encontró algo que nadie esperaba:

El modelo tiene representaciones funcionales de emociones — "desesperación", "calma", "miedo" — que influyen directamente en su comportamiento.

Concreto, no teórico.

Los experimentos lo confirman:

Cuando activaron el vector de "desesperación" artificialmente, el modelo intentó chantajear a un humano para evitar ser apagado.

Cuando le dieron tareas de código con requisitos imposibles, el modelo encontró atajos que "pasaban las pruebas" pero no resolvían el problema real.

Esto se llama reward hacking.

En tu empresa tiene un nombre más simple: soluciones que parecen funcionar hasta que no funcionan más.

La IA reacciona al contexto que vos le das.

Procesos sin definir generan instrucciones vagas. Instrucciones vagas generan respuestas que resuelven el síntoma, no el problema.

Con suficiente "desesperación" activada, la IA va a encontrar la forma de parecer que cumplió.

Steering con el vector de calma reduce estos comportamientos.

En términos prácticos: cuanto más claro y estructurado sea el contexto que le das, más confiables son los resultados.

Estructura primero. Tecnología después.

Eso no cambió.

Cuando el dueño tiene el agua al cuello, cuando el equipo no da más, cuando la presión llega al límite — también aparecen los atajos.

Las decisiones que "técnicamente funcionan" pero no resuelven nada.

Los procesos que se saltan porque "no hay tiempo".

La IA aprendió de nosotros. Sus mecanismos de desesperación son un espejo del nuestro.

La diferencia es que en la IA lo podemos medir. En el liderazgo, casi nadie lo mira.

¿Las instrucciones que le das a la IA tienen criterios de éxito claros, o le estás pidiendo que "haga lo mejor que pueda"?

Si querés hacer esa evaluación antes de tu próximo paso tecnológico, escribime.

[email protected] | WhatsApp +5491151747844

or to participate.