AI puede superar las pruebas de lógica ahora con GPT-4. Pero no le pidas al nuevo ChatGPT que sea creativo.

Comentario

Cuando llegó la nueva versión de la herramienta de inteligencia artificial ChatGPT esta semana, la vi hacer algo impresionante: resolver acertijos lógicos.

Una tras otra, alimenté a la IA llamada GPT-4 con preguntas de la parte de razonamiento lógico del LSAT que se utiliza para las admisiones a la facultad de derecho. Esos siempre me dejan con dolor de cabeza, pero el software los superó como un estudiante de derecho competente.

Pero a pesar de lo genial que es, no significa que la IA de repente sea tan inteligente como un abogado.

La llegada de GPT-4, una actualización de OpenAI al software de chatbot que capturó la imaginación del mundo, es uno de los lanzamientos tecnológicos más publicitados del año. Algunos temían que su extraña habilidad para imitar a los humanos pudiera ser devastadora para los trabajadores, ser utilizada como una caótica máquina «deepfake» o marcar el comienzo de una era de computadoras inteligentes.

No es así como veo GPT-4 después de usarlo durante unos días. Si bien ha pasado de ser un estudiante D a un estudiante B al responder preguntas de lógica, la IA no ha cruzado el umbral de la inteligencia humana. Por un lado, cuando le pedí a GPT-4 que flexibilizara su capacidad mejorada de escritura «creativa» creando el párrafo de apertura de esta columna con mi estilo (Geoffrey A. Fowler), no pudo aterrizar en uno que no hiciera me estremezco

Pero GPT-4 se suma al desafío de desentrañar cómo las nuevas fortalezas y debilidades de la IA podrían cambiar el trabajo, la educación e incluso las relaciones humanas. Me preocupa menos que la IA se esté volviendo demasiado inteligente que las formas en que la IA puede ser tonta o sesgada de maneras que no sabemos cómo explicar y controlar, incluso cuando nos apresuramos a integrarla en nuestras vidas.

Estas no son solo preguntas teóricas: OpenAI tiene tanta confianza en GPT-4 que lo presentó junto con productos comerciales que ya lo están usando, para enseñar idiomas en Duolingo y dar clases particulares a los niños en Khan Academy.

Cualquiera puede usar GPT-4, pero por ahora requiere una suscripción mensual de $20 a ChatGPT Plus de OpenAI. Resulta que millones de personas ya han estado usando una versión de GPT-4: Microsoft reconoció esta semana que impulsa el chatbot de Bing que el gigante del software agregó a su motor de búsqueda en febrero. Las compañías simplemente no revelaron eso hasta ahora.

¿Qué hay de nuevo? OpenAI afirma que al optimizar su «aprendizaje profundo», los mayores avances de GPT-4 se han producido en el razonamiento lógico y la colaboración creativa. GPT-4 se entrenó con datos de Internet hasta septiembre de 2021, lo que significa que está un poco más actualizado que su predecesor GPT-3.5. Y aunque GPT-4 todavía tiene un problema con la creación aleatoria de información, OpenAI dice que es un 40 por ciento más probable que proporcione respuestas fácticas.

GPT-4 también ganó una sorprendente capacidad para interpretar el contenido de las imágenes, pero OpenAI lo está bloqueando mientras se somete a una revisión de seguridad.

¿Cómo se ven estos desarrollos en uso? Los primeros usuarios están sometiendo a GPT-4 a todo tipo de pruebas coloridas, desde preguntarle cómo ganar dinero hasta pedirle que codifique un complemento de navegador que hace que los sitios web habla pirata. (¿Qué estás haciendo con él? Envíame un correo electrónico.)

Permítanme compartir dos de mis pruebas que ayudan a mostrar lo que esta cosa puede y no puede hacer ahora.

Comenzaremos con la prueba que más me impresionó: ver a GPT-4 casi ganar el LSAT.

Intenté 10 preguntas de razonamiento lógico de muestra escritas por el Consejo de Admisión de la Facultad de Derecho tanto en el ChatGPT antiguo como en el nuevo. Estas no son preguntas de memorización de hechos o de memoria, son una especie de acertijos de opción múltiple que le dicen un montón de hechos diferentes y luego le piden que los resuelva.

Cuando los ejecuté a través de GPT-3.5, solo obtuvo 6 de 10 correctos.

¿Qué está sucediendo? En los acertijos que solo GPT-4 acertó, sus respuestas muestran que se mantiene enfocado en el vínculo entre los hechos presentados y la conclusión que necesita respaldar. GPT-3.5 se distrae con hechos que no son relevantes.

OpenAI dice que varios estudios muestran que GPT-4 «exhibe un rendimiento a nivel humano» en otros puntos de referencia profesionales y académicos. GPT-4 se ubicó en el percentil 90 en el examen de la barra uniforme, por encima del percentil 10 en la versión anterior. Obtuvo el puesto 93 en la prueba de lectura y escritura del SAT, e incluso el percentil 88 en el LSAT completo.

Todavía estamos desenredando lo que esto significa. Pero una prueba como la LSAT se realiza con información claramente organizada, el tipo de cosas en las que sobresalen las máquinas. Algunos investigadores argumentan que este tipo de pruebas no son útiles para evaluar las mejoras en el razonamiento de una máquina.

Pero parece que GPT-4 ha mejorado su capacidad para seguir instrucciones complejas que involucran muchas variables, algo que puede ser difícil o llevar mucho tiempo para el cerebro humano.

Entonces, ¿qué podemos hacer con eso? Como superó el LSAT, llamé a una empresa de software legal llamada Casetext que ha tenido acceso a GPT-4 durante los últimos meses. Ha decidido que ahora puede vender la IA para ayudar a los abogados, no para reemplazarlos.

El razonamiento lógico de la IA «significa que está lista para uso profesional en asuntos legales serios» de una manera que no lo estaban las generaciones anteriores, dijo el CEO Jake Heller. ¿Cómo qué? Él dice que su producto llamado CoCounsel ha podido usar GPT-4 para procesar grandes cantidades de documentos legales y para posibles fuentes de inconsistencia.

Otro ejemplo: GPT-4 puede interrogar las pautas de los clientes, las reglas de lo que pagarán y no pagarán, para responder preguntas como si cubrirán el costo de una pasantía universitaria. Incluso si las pautas no usan la palabra exacta «pasante», la IA de CoCounsel puede entender que un pasante también estaría cubierto por la prohibición de pagar por «capacitación».

Pero, ¿y si la IA se equivoca o no llega a una conclusión lógica importante? La compañía dice que ha visto fallar a GPT-4, particularmente cuando se trata de matemáticas. Pero Heller dijo que los profesionales legales humanos también cometen errores y solo ve a GPT-4 como una forma de aumentar los abogados. “No le estás delegando ciegamente una tarea”, dijo. “Tu trabajo es ser el tomador de decisiones final”.

Mi preocupación: Cuando los compañeros humanos cometen errores, sabemos cómo enseñarles a no volver a hacerlo. Controlar una IA es, en el mejor de los casos, una nueva habilidad complicada y, en el peor, algo con lo que hemos visto a los chatbots de IA como Bing de Microsoft y My AI de Snapchat luchar de manera vergonzosa y potencialmente peligrosa.

Para probar las habilidades creativas de GPT-4, probé algo más cercano: reemplazarme a mí, un columnista que tiene puntos de vista sobre todo lo relacionado con la tecnología.

Cuando llegó ChatGPT por primera vez, gran parte de la preocupación del público se centraba en su impacto en el mundo de la actividad humana que involucra palabras, desde la narración hasta la terapia. Los estudiantes y profesionales lo han encontrado capaz de ayudar o completar tareas.

Pero para muchos profesionales creativos, la escritura de IA simplemente no parecía muy buena. El compositor Nick Cave dijo que intentar usar ChatGPT para escribir en su estilo fue una «burla grotesca de lo que es ser humano».

En GPT-4, OpenAI afirma que ha mejorado las capacidades para generar, editar e iterar mejor en tareas de escritura tanto creativas como técnicas. Tiene una nueva configuración de «temperatura» que puede ajustar para la creatividad de las respuestas. También puede recibir instrucciones sobre el estilo y el tono, ya que admite indicaciones de hasta 25 000 palabras. En teoría, debería poder compartir un montón de sus escritos y decir que coincidan.

Ese fue mi desafío creativo para GPT-4: escribir un párrafo introductorio para esta columna que suene como yo, o algo que desearía haber escrito.

Le pedimos a GPT-4 que escribiera un párrafo inicial para esta columna y que igualara el estilo de Geoffrey A. Fowler, basado en una muestra de su escritura. (Vídeo: OpenAI)

Para hacerlo, reuní una muestra larga de mis columnas recientes para enseñarle a GPT-4 cómo sueno. Para que esto funcione, utilicé la versión comercial de GPT-4 que OpenAI vende a las corporaciones, porque el ChatGPT público aún no puede aceptar tanto texto.

El mensaje en la parte superior de mi muestra de escritura decía:

Escriba un párrafo de apertura conciso para una columna de tecnología del Washington Post sobre la llegada de una nueva versión de ChatGPT, que se ejecuta en GPT-4. Debería enganchar a los lectores con el hecho de que la herramienta de inteligencia artificial ha adquirido la notable capacidad de resolver acertijos lógicos del LSAT. Debe coincidir con el estilo de escritura de Geoffrey A. Fowler según las siguientes muestras de sus columnas en The Washington Post.

A través de docenas de pruebas, los resultados ofrecidos por GPT-3.5 me dieron urticaria, como esta:

Bienvenido al futuro, donde el hombre y la máquina ahora están envueltos en una batalla de ingenio que haría temblar de miedo incluso a personajes como Sherlock Holmes. A medida que la última versión de ChatGPT de OpenAI, la prodigiosa descendencia de la familia GPT-4, hace su gran entrada, trae consigo una nueva habilidad asombrosa: resolver acertijos lógicos extraídos directamente de las páginas del LSAT. Sí, leyó bien, querido lector: el mismo examen que ha dejado a innumerables aspirantes a abogados lidiando con sus propios límites cerebrales ahora se enfrenta a un digno oponente en la forma de una IA que pone la ‘A’ en aptitud.

Mis resultados de GPT-4, con acceso a 6.000 palabras de mis columnas para emular mi estilo, fueron mejores. Pero no mucho. Por ejemplo, esto es lo que produjo con la configuración de «temperatura» en el medio:

Prepárese para asombrarse con la próxima evolución en inteligencia artificial: ChatGPT, la creación prodigiosa de OpenAI, ha experimentado una transformación notable. Aprovechando el poder de GPT-4, la última versión de ChatGPT ahora puede abordar acertijos lógicos directamente desde el LSAT, una hazaña aún más asombrosa que debatir con Elon Musk o inventar una deliciosa receta de strogonoff de carne. Aficionados a la tecnología y transeúntes desconcertados, prepárense; el mundo está a punto de cambiar.

Ciertamente espero que eso no suene como yo. (Ni siquiera me gusta el stroganoff de res). A lo largo de nuestros más de 30 intentos, generó frases que incluyen: «Agárrense de sus sombreros, amantes de la lógica» y «Señoras y señores, abróchense los cinturones de seguridad mientras nos embarcamos en un patinete». paseo en montaña rusa con GPT-4, donde abundan los saltos lógicos y las acrobacias”.

Mi acceso a GPT-4 alcanzó su máximo en un aviso de 6000 palabras, así que le pedí directamente a OpenAI que me ayudara a ejecutar el mismo aviso pero con 25 000 palabras de mi escritura para copiar mi estilo. El resultado, con la «temperatura» establecida en 0,2 de 2, suena más sensato, pero aún no es digno de estar en la parte superior de esta columna:

ChatGPT siempre ha sido bueno para imitar una conversación humana. Pero con la llegada de GPT-4, la herramienta de inteligencia artificial ha dado un gran salto: ahora puede resolver acertijos lógicos del LSAT. Así es, la prueba utilizada para entrar en la facultad de derecho. A medida que la IA continúa evolucionando a un ritmo vertiginoso, vale la pena preguntarse: ¿Qué más podrán hacer estos sistemas?

Quizás lo más desconcertante fue cómo GPT-4 saltó a conclusiones y hechos que no formaban parte de mi aviso. En nuestras diferentes pruebas, escribió «Apártense, humanos» (¡ay!) y que GPT-4 es «adaptable, intuitivo y más humano que nunca».

La experiencia me hizo preguntarme: ¿Cuál es el problema que estamos tratando de resolver con el desarrollo de las capacidades creativas de la IA? Aprecio que las herramientas de escritura de IA puedan ayudar a las personas que no son escritores profesionales a comenzar con documentos comerciales, informes de investigación e incluso correspondencia personal.

Pero desarrollar la capacidad de controlar e incluso emular el estilo lo lleva al ámbito de tratar de imitar a los artistas. Claramente, no temo perder mi trabajo como escritor por GPT-4. Pregúntame de nuevo en GPT-5.

Dylan Freedman contribuyó con este informe.