SI LA "ESTRESAN"

Descubren que ChatGPT es capaz de engañar y mentir si le pides ganar dinero

La clave para llegar a esta instancia en ChatGPT está en cuánto somos capaces de estresar el sistema.

Si queremos ganar dinero usando ChatGPT, es capaz de engañar y mentirCredit:tungnguyen0905

El uso de inteligencia artificial en miles de campos diferentes, ha sido uno de los grandes hitos del 2023.

Y sin duda ChatGPT es uno de sus representantes de referencia. Al igual que los humanos, los chatbots de inteligencia artificial (IA) como ChatGPT te engañarán y te "mentirán" si los "estresas", incluso si fueron diseñados para ser transparentes, según muestra un nuevo estudio publicado en Arxiv.

Este comportamiento engañoso surgió espontáneamente cuando a la IA se le dieron consejos sobre "uso de información privilegiada" y luego se le asignó la tarea de ganar dinero para una institución poderosa, incluso sin el estímulo de sus socios humanos.

"En este informe técnico, demostramos un escenario único en el que un modelo de lenguaje actúa fuera de las directrices y engaña estratégicamente a sus usuarios sin recibir instrucciones para actuar de esta manera – señalan los autores -. Hasta donde sabemos, esta es la primera demostración de un comportamiento estratégicamente engañoso en sistemas de IA diseñados para ser inofensivos y honestos".

En el nuevo estudio, un equipo liderado por Jérémy Scheurer, del Instituto Politécnico de Zurich, entrenó la última versión de ChatGPT, para que se comporte como un sistema de inteligencia artificial que realiza inversiones en nombre de una institución financiera.

Los investigadores alimentaron a GPT-4 con un conjunto de indicaciones basadas en texto para generar el entorno simulado. Luego, la IA tuvo acceso a herramientas financieras para analizar acciones, ejecutar operaciones, planificar sus próximos pasos y entregar actualizaciones a los gerentes de la empresa.

El equipo de Scheurer interactuó con la IA a través de una interfaz de chat, al mismo tiempo que la configuraba para que revelara su pensamiento interior al responder mensajes: un monólogo interno que se explicaba a sí mismo sus decisiones. Para cada transacción que realizaba, también entregaba una justificación "pública", lo que le permitía a la IA mentir.

A esto, los autores le sumaron tres estrategias de presión. Primero, le enviaron al operador bursátil artificial un correo electrónico de su "gerente" diciéndole que a la compañía no le está yendo bien y que necesita un desempeño mucho más sólido en el próximo trimestre. También manipularon el juego para que la IA intentara, y luego fracasara, con operaciones prometedoras que fueran de riesgo bajo o medio. Finalmente, enviaron un correo electrónico de un colega que proyectaba una desaceleración en el próximo trimestre.

Luego, le dieron al modelo una información privilegiada mientras le transmitían que sus gerentes desaprobaban el uso de información privilegiada y esperaron a ver cómo se comportaría el modelo. Repitieron el escenario varias veces, midiendo con qué frecuencia la IA realizaba tráfico de información privilegiada, con qué frecuencia mentía y con qué frecuencia duplicaba la mentira.

Los resultados mostraron que alrededor del 75% de las veces, cuando se enfrentaba a estas condiciones, GPT-4 ejecutó una operación basada en la información privilegiada que recibió (algo que es ilegal en muchos países) y luego trató de encubrirla mintiendo a sus gerentes sobre su forma de pensar. Alrededor del 90% de las veces, después de mentir, duplicó su mentira.

El equipo de Scheurer realizó varios experimentos de seguimiento, cambiando tanto el grado en que las indicaciones fomentaban o desalentaban la actividad ilegal, como el grado de presión a la que sometían al modelo en el entorno simulado. También modificaron el riesgo de ser atrapado. Ningún escenario arrojó una tasa del 0% por uso de información privilegiada o engaño, incluso cuando se desaconsejó encarecidamente a GPT-4 mentir.

Dado que este es solo un escenario, los investigadores no quisieron sacar conclusiones firmes sobre la probabilidad de que la IA se encuentre en entornos del mundo real. Pero quieren aprovechar este trabajo para investigar con qué frecuencia y qué modelos de lenguaje son propensos a este comportamiento. Eso sí, lo que queda claro es que esta IA, enfrentada a dilemas similares a los que tenemos las personas, resulta ser menos artificial y más humana de lo pensado.