Un Dilema Universal: El Valor es Relativo
Imagina dos opciones con la misma recompensa. ¿Debería dar igual cuál elegir? La lógica diría que sí, pero nuestro cerebro no siempre funciona de forma tan simple. Un equipo de científicos ha demostrado en un nuevo estudio que tanto los seres humanos como las ratas tomamos decisiones basadas no solo en el valor absoluto de una recompensa, sino en el contexto en el que la aprendimos. Este fenómeno, conocido como "aprendizaje por refuerzo dependiente del punto de referencia", revela un mecanismo cognitivo profundo y conservado evolutivamente que influye en nuestro comportamiento diario, desde las compras hasta las decisiones financieras.
Poniendo a Prueba a Dos Especies
Para investigar si este sesgo contextual es un rasgo compartido, los investigadores diseñaron un ingenioso experimento paralelo para humanos y ratas. Durante una primera "fase de aprendizaje", a los sujetos se les presentaban opciones en parejas fijas. Una pareja (A y B) pertenecía a un contexto "rico", con altas probabilidades de recompensa en general, mientras que la otra pareja (C y D) formaba un contexto "pobre", con recompensas menos frecuentes. En ambos contextos, una opción era siempre mejor que la otra (A mejor que B, C mejor que D).
La clave del estudio llegó en la "fase de transferencia". Aquí, los científicos mezclaron las cartas y presentaron a los sujetos combinaciones nuevas, incluyendo la pareja crucial: la opción B (la "peor" del contexto rico) contra la opción C (la "mejor" del contexto pobre). Si los sujetos decidieran basándose en el valor absoluto y objetivo de la recompensa, su elección dependería de las probabilidades reales de cada una. Sin embargo, si el contexto original importaba, los resultados serían muy diferentes.
Profundizando en los Modelos: ¿Cómo "Piensa" el Cerebro?
Para entender el mecanismo subyacente, los investigadores utilizaron dos modelos computacionales. El "Modelo Absoluto" asume que el cerebro aprende el valor objetivo de cada opción de forma independiente. Por el contrario, el "Modelo de Referencia" postula que el cerebro codifica el valor de una recompensa en relación con el promedio de su contexto. Es decir, una recompensa se siente "mejor" en un entorno pobre y "peor" en uno rico. Al comparar cuál de los dos modelos predecía mejor el comportamiento observado, pudieron determinar el algoritmo cognitivo que guía estas decisiones.
Resultados Sorprendentemente Similares
De manera fascinante, tanto humanos como ratas mostraron un claro sesgo contextual. Al enfrentarse a la elección entre B y C, ambos prefirieron consistentemente la opción C, la que había sido la "estrella" en el contexto pobre. Este comportamiento se mantuvo incluso en experimentos donde la opción B ofrecía objetivamente una mayor probabilidad de recompensa, llevando a elecciones subóptimas. Este hallazgo sugiere que el valor relativo aprendido ("ser el mejor de un mal grupo") pesa más que el valor absoluto.
A pesar de la sorprendente similitud, se observaron algunas diferencias. Los humanos aprendieron las preferencias iniciales más rápidamente y también fueron más veloces en corregir su sesgo contextual durante la fase de transferencia, adaptándose a las nuevas realidades de las recompensas. Las ratas, en cambio, mantuvieron su preferencia inicial de forma más persistente. El estudio concluye que la codificación de valor relativo es una característica robusta y conservada del aprendizaje, un mecanismo fundamental que probablemente evolucionó para optimizar la toma de decisiones en entornos cambiantes.
Ficha Técnica
- Título original: Reference-point dependent reinforcement learning in humans and rats
- Revista: Nature Communications
- Año: 2026
- DOI: 10.1038/s41467-026-73623-x
- Autores: Lachlan A. Ferguson, Magdalena Soukupova, Sébastien Bouret, Stefano Palminteri & Shauna L. Parkes
Comentarios (0)
Aún no hay comentarios
Sé el primero en compartir tu opinión sobre este artículo.