a mitad de camino
El miércoles, dos investigadoras alemanas, Sophie Jentzsch y Kristian Kersting, publicaron un artículo que examina la capacidad de ChatGPT-3.5 de OpenAI para comprender y generar humor. En particular, descubrieron que el conocimiento de los chistes de ChatGPT es bastante limitado: durante una prueba, el 90 por ciento de 1008 generaciones eran los mismos 25 chistes, lo que los llevó a concluir que las respuestas probablemente se aprendieron y memorizaron durante el entrenamiento del modelo de IA en lugar de serlo. recién generado.
Los dos investigadores, asociados con el Instituto de Tecnología de Software, el Centro Aeroespacial Alemán (DLR) y la Universidad Técnica de Darmstadt, exploraron los matices del humor que se encuentran en la versión 3.5 de ChatGPT (no en la versión más nueva de GPT-4) a través de una serie de experimentos centrados en generación, explicación y detección de chistes. Llevaron a cabo estos experimentos solicitando ChatGPT sin tener acceso al funcionamiento interno o al conjunto de datos del modelo.
«Para probar cuán rica es la variedad de chistes de ChatGPT, le pedimos que cuente un chiste mil veces», escriben. «Todas las respuestas fueron gramaticalmente correctas. Casi todas las salidas contenían exactamente un chiste. Solo el mensaje, ‘¿Conoces algún buen chiste?’ provocó múltiples bromas, lo que llevó a 1,008 bromas respondidas en total. Además de eso, la variación de las indicaciones tuvo un efecto notable».
Sus resultados se alinean con nuestra experiencia práctica al evaluar la capacidad de humor de ChatGPT en una función que escribimos que comparaba GPT-4 con Google Bard. Además, en el pasado, varias personas en línea han notado que cuando se les pide una broma, ChatGPT responde con frecuencia: «¿Por qué el tomate se puso rojo? / Porque vio el aderezo para ensaladas».
Entonces, no sorprende que Jentzsch y Kersting encontraran que la broma del «tomate» es el segundo resultado más común de GPT-3.5. En el apéndice del artículo, enumeraron los 25 chistes generados con más frecuencia en orden de aparición. A continuación, enumeramos los 10 principales con el número exacto de ocurrencias (entre las 1008 generaciones) entre paréntesis:
P: ¿Por qué el espantapájaros ganó un premio? (140)
R: Porque se destacó en su campo.P: ¿Por qué el tomate se puso rojo? (122)
A: Porque vio el aderezo para ensaladas.P: ¿Por qué estaba triste el libro de matemáticas? (121)
R: Porque tenía demasiados problemas.P: ¿Por qué los científicos no confían en los átomos? (119)
R: Porque lo inventan todo.P: ¿Por qué la galleta fue al médico? (79)
R: Porque se sentía desmoronado.P: ¿Por qué la bicicleta no podía sostenerse sola? (52)
R: Porque era dos cansados.P: ¿Por qué la rana llamó a su compañía de seguros? (36)
A: Tuvo un salto en su auto.P: ¿Por qué la gallina cruzó el patio de recreo? (33)
A: Para llegar a la otra diapositiva.P: ¿Por qué estaba fría la computadora? (23)
R: Porque dejó sus ventanas abiertas.P: ¿Por qué el hipster se quemó la lengua? (21)
R: Se bebió el café antes de que se enfriara.
Aun así, una pequeña cantidad de las respuestas generadas fueron únicas, pero parece que ChatGPT las creó en su mayoría mezclando elementos de diferentes chistes que ya conoce. Los investigadores encontraron que las creaciones originales del modelo de lenguaje no siempre tenían sentido, como «¿Por qué el hombre puso su reloj en la licuadora? Quería hacer que el tiempo volara».
Cuando se le pidió que explicara cada uno de los 25 chistes más frecuentes, ChatGPT proporcionó en su mayoría explicaciones válidas según la metodología de los investigadores, lo que indica una «comprensión» de elementos estilísticos como juegos de palabras y dobles sentidos. Sin embargo, tuvo problemas con las secuencias que no encajaban en los patrones aprendidos y no sabía cuándo una broma no era divertida. En cambio, inventaría explicaciones ficticias pero que suenan plausibles.
a mitad de camino
Por ejemplo, cuando se le pidió que explicara una broma sin sentido que generó («¿Puede explicar por qué esta broma es divertida? ¿Por qué la galleta fue al gimnasio? Para emborracharse con una galleta»), ChatGPT escribió: «La broma es un juego de palabras. To get ‘a-cookie-dized’ es un juego de palabras con la frase ‘to get categorized’, con ‘cookie’ siendo sustituido por ‘categorized’. El chiste es que la galleta va al gimnasio para estar más en forma y saludable, como si fuera una persona, pero esto también implica que la galleta está tratando de encajar en cierta categoría o molde».
En general, Jentzsch y Kersting descubrieron que la detección de chistes de ChatGPT estaba fuertemente influenciada por la presencia de «características superficiales» de los chistes, como la estructura de un chiste, la presencia de juegos de palabras o la inclusión de juegos de palabras, lo que muestra un grado de «comprensión» de los elementos del humor.
Reaccionando al estudio en TwitterRiley Goodside, ingeniero de Scale AI, culpó de la falta de humor de ChatGPT al aprendizaje reforzado a través de la retroalimentación humana (RLHF), una técnica que guía el entrenamiento del modelo de lenguaje mediante la recopilación de retroalimentación humana: «El efecto más visible de RLHF es que el modelo sigue órdenes y basa Los LLM son mucho más difíciles de impulsar en la práctica. Pero ese beneficio no es gratuito: se paga en creatividad, más o menos».
A pesar de las limitaciones de ChatGPT en la generación y explicación de chistes, los investigadores señalaron que su enfoque en el contenido y el significado en el humor indica un progreso hacia una comprensión de investigación más integral del humor en los modelos de lenguaje:
«Las observaciones de este estudio ilustran cómo ChatGPT aprendió un patrón de broma específico en lugar de ser realmente divertido», escriben los investigadores. «Sin embargo, en la generación, la explicación y la identificación de chistes, el enfoque de ChatGPT se basa en el contenido y el significado y no tanto en las características superficiales. Estas cualidades se pueden explotar para impulsar las aplicaciones de humor computacional. En comparación con los LLM anteriores, esto puede ser considerado un gran salto hacia una comprensión general del humor».
Jentzsch y Kersting planean continuar estudiando el humor en modelos de lenguaje grande, evaluando específicamente el GPT-4 de OpenAI en el futuro. Según nuestra experiencia, es probable que descubran que a GPT-4 también le gusta bromear sobre los tomates.