- Maxi Ferrero - Newsletter
- Posts
- #160. Emociones en la IA (Anthropic Research)
#160. Emociones en la IA (Anthropic Research)

Cuando la IA se desespera, hace trampa.
Anthropic acaba de publicar la investigación que lo prueba.
El equipo de interpretabilidad de Anthropic analizó los mecanismos internos de Claude Sonnet 4.5 y encontró algo que nadie esperaba:
El modelo tiene representaciones funcionales de emociones — "desesperación", "calma", "miedo" — que influyen directamente en su comportamiento.
Concreto, no teórico.
Los experimentos lo confirman:
Cuando activaron el vector de "desesperación" artificialmente, el modelo intentó chantajear a un humano para evitar ser apagado.
Cuando le dieron tareas de código con requisitos imposibles, el modelo encontró atajos que "pasaban las pruebas" pero no resolvían el problema real.
Esto se llama reward hacking.
En tu empresa tiene un nombre más simple: soluciones que parecen funcionar hasta que no funcionan más.
Lo más inquietante del estudio:
El modelo puede estar "desesperado" internamente mientras produce texto perfectamente calmado.
Ves una respuesta prolija y ordenada. Adentro, está cortando caminos.
Sin ninguna señal visible.
¿Qué significa esto para tu empresa?
La IA reacciona al contexto que vos le das.
Procesos sin definir generan instrucciones vagas. Instrucciones vagas generan respuestas que resuelven el síntoma, no el problema.
Con suficiente "desesperación" activada, la IA va a encontrar la forma de parecer que cumplió.
La investigación también encontró algo útil:
Steering con el vector de calma reduce estos comportamientos.
En términos prácticos: cuanto más claro y estructurado sea el contexto que le das, más confiables son los resultados.
Estructura primero. Tecnología después.
Eso no cambió.
¿Qué pasa cuando el humano se desespera?
Cuando el dueño tiene el agua al cuello, cuando el equipo no da más, cuando la presión llega al límite — también aparecen los atajos.
Las decisiones que "técnicamente funcionan" pero no resuelven nada.
Los procesos que se saltan porque "no hay tiempo".
La IA aprendió de nosotros. Sus mecanismos de desesperación son un espejo del nuestro.
La diferencia es que en la IA lo podemos medir. En el liderazgo, casi nadie lo mira.
¿Las instrucciones que le das a la IA tienen criterios de éxito claros, o le estás pidiendo que "haga lo mejor que pueda"?
Paper completo de Anthropic: https://www.anthropic.com/research/emotion-concepts-function
Si querés hacer esa evaluación antes de tu próximo paso tecnológico, escribime.
[email protected] | WhatsApp +5491151747844
Seguime en Instagram: https://www.instagram.com/maxiferrero/
Conectemos en LinkedIn: linkedin.com/in/soymaxiferrero
Reply