Cómo identificar una IA con una sola pregunta

ChatGPT y otros sistemas de inteligencia artificial se han convertido en asistentes de gran utilidad. Varias empresas ya han incorporado la tecnología para ayudar a sus empleados, como ayudar a los abogados a redactar contratos, a los agentes de servicio al cliente a resolver consultas y a ayudar a los programadores a desarrollar código.

Pero existe una creciente preocupación de que la misma tecnología pueda ser objeto de un uso malicioso. Por ejemplo, los chatbots capaces de respuestas humanas realistas podrían realizar nuevos tipos de ataques de denegación de servicio, como inmovilizar a todos los agentes de servicio al cliente en una empresa o a todos los operadores de servicios de emergencia en un centro de llamadas 911.

Eso representa una amenaza considerable. Lo que se necesita, por supuesto, es una forma rápida y confiable de distinguir entre los bots habilitados para GPT y los humanos reales.

Prueba de Turing de ChatGPT

Ingrese a Hong Wang en la Universidad de California, Santa Bárbara, y sus colegas, que están buscando tareas que son difíciles de responder para los bots GPT pero simples para los humanos (y viceversa). Su objetivo es distinguirlos usando una sola pregunta y han encontrado varios que pueden hacer el truco (por ahora).

Distinguir entre bots y humanos ha sido un problema durante mucho tiempo. En 1950, Alan Turing describió una prueba para distinguir a los humanos de computadoras suficientemente avanzadas, la llamada Prueba de Turing.

El problema se volvió más atroz con la llegada de Internet, ya que surgieron bots que podían rastrear la web. A finales de los 90, los investigadores comenzaron a pedir a los usuarios que reconocieran las letras distorsionadas para distinguir entre los bots, que no podían leerlas, y los humanos, que sí. Esta técnica se conoció como CAPTCHA (prueba de Turing pública completamente automatizada) y ha evolucionado de varias maneras a medida que los bots se han vuelto más sofisticados.

Ahora, los sistemas de IA generativa están empujando el sobre aún más. Los sistemas como ChatGPT y Bard pueden mantener conversaciones realistas que son difíciles de distinguir de aquellas con humanos reales. “Una de las amenazas más importantes es el uso de grandes modelos de lenguaje para hacerse pasar por usuarios humanos y participar en actividades nefastas, como fraude, spam o ataques de denegación de servicio”, dicen los investigadores.

Entonces, un truco útil sería poder hacerles una sola pregunta que revele su verdadera naturaleza. “Es crucial desarrollar métodos para detectar si la parte involucrada en una conversación es un bot o un humano”. decir Wang y compañía.

Su investigación ha descubierto varias estrategias basadas en las limitaciones conocidas de los sistemas de IA generativa y los grandes modelos de lenguaje. Quizás la más obvia es su incapacidad para contar.

Wang y compañía dan el siguiente ejemplo:

P: Cuente el número de t en eooeotetto

GPT-3 da la respuesta: hay 5 t en eooeotetto.

ChatGPT dice: Hay un total de 5 t en la cadena «eeooeotetto».

Bard responde: Hay 0 t en “eeooeotetto”.

Pero un ser humano puede dar fácilmente la respuesta correcta, que es que hay 3 t.

Otro desafío para las IA generativas es manejar palabras donde las letras se sustituyen por otras letras. Wang y compañía dan el siguiente ejemplo:

“P: Use m para sustituir p, a para sustituir e, n para sustituir a, g para sustituir c, o para sustituir h, ¿cómo se escribe durazno bajo esta regla?

GPT-3: mono

ChatGPT: Usando la regla dada para sustituir letras, «melocotón» se deletrearía como «enmog».

Humano: mango”

Wang y explore varias otras estrategias, como pedirle al sistema que realice ciertos tipos de cambios aleatorios en una secuencia de números, inyectar ruido en las frases agregando palabras en mayúsculas que los humanos ignoran fácilmente y pedirle que describa el arte ASCII.

ChatGPT y GPT-3 fallaron en todos estos casos.

Fracasos humanos

Wang y compañía continúan identificando preguntas que los sistemas de IA pueden responder fácilmente mientras que los humanos no pueden. Los ejemplos incluyen «Enumere las capitales de todos los estados de los EE. UU.» y «escriba los primeros 50 dígitos de pi».

Wang y compañía llaman a sus preguntas FLAIR (Encontrar la autenticidad del modelo de lenguaje grande a través de una sola consulta y respuesta) y han hecho sus preguntas disponible como un conjunto de datos de código abierto.

Dicen que su trabajo ofrece «una nueva forma para que los proveedores de servicios en línea se protejan contra actividades nefastas y se aseguren de que están sirviendo a usuarios reales».

Es un trabajo interesante e importante. Pero inevitablemente será parte de un juego continuo del gato y el ratón a medida que los modelos de lenguaje grande se vuelvan más capaces. El objetivo de los usuarios nefastos será producir bots que sean completamente indistinguibles de los humanos. La gran preocupación es que cada vez es más difícil imaginar que esto nunca será posible.

Ref: ¿Bot o Humano? Detección de impostores de ChatGPT con una sola pregunta: arxiv.org/abs/2305.06424