Qué esperar cuando está esperando... GPT-4

BLOG@CACM

Qué esperar cuando estás esperando… GPT-4

por Gary Marcus

4 de enero de 2023
Comentarios

Cuando 2022 llegó a su fin, OpenAI lanzó un sistema de escritura automática llamado ChatGPT que rápidamente se convirtió en una sensación en Internet; menos de dos semanas después de su lanzamiento, más de un millón de personas se habían registrado para probarlo en línea. Como todos los lectores seguramente saben a estas alturas, escribes texto e inmediatamente obtienes párrafos y párrafos de escritura, historias, poemas y más increíblemente parecidos a los humanos. Parte de lo que escribe es tan bueno que algunas personas lo usan para conseguir citas en Tinder («¿Te importa si tomo asiento? Porque verte hacer esos movimientos de cadera hace que mis piernas se sientan un poco débiles»). Otro , para gran consternación de los educadores de todo el mundo, lo utilizan para escribir trabajos finales. Otros lo están utilizando para tratar de reinventar los motores de búsqueda. Nunca he visto algo como este mucho zumbido.

Aún así, no deberíamos ser enteramente impresionado.

Aunque ChatGPT puede escribir sobre cualquier cosa, también se confunde fácilmente. Como le dije al columnista del NYT Farhad Manjoo, ChatGPT, como antes, los sistemas relacionados «aún no son confiables, aún no comprenden el mundo físico, aún no comprenden el mundo psicológico y aún alucinan».

Lo que quiere decir que inventa cosas regularmente; una buena parte de lo que dice simplemente no es cierto.

ChatGPT afirma, por ejemplo, que los churros eran buenos para la cirugía, porque «su tamaño compacto permite una mayor precisión y control durante la cirugía, reduciendo el riesgo de complicaciones y mejorando el resultado general del procedimiento»; el problema de la alucinación, por el cual la máquina inventa tonterías con fluidez, es tan grave que al menos un sitio web destacado, Stack Overflow, ha prohibido temporalmente los envíos generados por computadora.

Y los errores son interminables. El sistema se reajusta con frecuencia en función de los comentarios, pero semanas después sigo recibiendo tweets como estos:

Y claro, hay barandillas en su lugar ahora, pero a veces esas barandillas simplemente apestan. Este es uno de mis primeros experimentos con ChatGPT:

Fallas como estas son tan fáciles de encontrar que Sam Altman, CEO de OpenAI, y ex satirista de mífinalmente se vio obligado a ceder a la realidad:

En resumen, ChatGPT puede sonar como la computadora de Star Trek, pero por ahora, todavía no puedes confiar en él.

Pero todo eso es tan 2022. ¿Qué pasa con 2023?

Lo que Silicon Valley, y de hecho el mundo, está esperando es GPT-4.

Te garantizo que las mentes se volarán. Conozco a varias personas que han probado GPT-4 y todos quedaron impresionados. Realmente llegará pronto (primavera de 2023, según algunos rumores). Cuando salga, eclipsará por completo a ChatGPT; es una apuesta segura que incluso más la gente va a estar hablando de eso..

En muchos sectores, las expectativas son muy, muy altas:

En términos técnicos, GPT-4 tendrá más parámetros dentro, lo que requerirá más procesadores y memoria para unirlos y entrenarlos con más datos. GPT-1 se entrenó en 4,6 gigabytes de datos, GPT-2 se entrenó en 46 gigabytes, GPT-3 se entrenó en 750. GPT-4 se entrenará en mucho más, una fracción significativa de Internet en su conjunto. Como OpenAI ha aprendido, más grande en muchos sentidos significa mejor, con resultados cada vez más parecidos a los humanos con cada iteración. GPT-4 va a ser un monstruo.

Pero, ¿resolverá los problemas que hemos visto antes? Yo no estoy tan seguro.

Aunque GPT-4 definitivamente parecer más inteligente que sus predecesores, su arquitectura interna sigue siendo problemática. Sospecho que lo que veremos es un patrón familiar: un gran zumbido inicial, seguido de una inspección científica más cuidadosa, seguida por el reconocimiento de que aún quedan muchos problemas.

Por lo que puedo decir de los rumores, GPT-4 tiene una arquitectura esencialmente igual a GPT-3. Si es así, podemos esperar que ese enfoque aún se vea empañado por algo fundamental: una incapacidad para construir modelos internos de cómo funciona el mundo y, en consecuencia, debemos anticipar una incapacidad para comprender las cosas en un nivel abstracto. GPT-4 puede ser mejor para falsificar trabajos finales, pero si sigue el mismo libro de jugadas que sus predecesores, todavía no entenderá realmente el mundo y las costuras eventualmente se mostrarán.

Y así, en contra del tremendo optimismo por GPT-4 que he escuchado de gran parte de la comunidad de IA, aquí hay siete predicciones oscuras:

GPT-4 seguirá, como sus predecesores, ser un toro en una tienda de porcelana, imprudente y difícil de controlar. Todavía cometerá una cantidad significativa de errores estúpidos que sacuden la cabeza, en formas que son difíciles de predecir por completo. A menudo hará lo que usted quiere, a veces no, y seguirá siendo difícil anticipar qué de antemano.

El razonamiento sobre el mundo físico, psicológico y matemático seguirá siendo poco fiable, GPT-3 fue desafiado en la teoría de la mente, el razonamiento médico y físico. GPT-4 resolverá muchos de los elementos específicos individuales utilizados en los puntos de referencia anteriores, pero aún se tropieza, especialmente en escenarios más largos y complejos. Cuando se le pregunta sobre medicina, se resistirá a responder (si hay medidas de protección agresivas) o, en ocasiones, dirá tonterías que suenan plausibles pero peligrosas. No será lo suficientemente confiable y completo como para dar consejos médicos confiables, a pesar de que devora una gran parte de Internet..
Las alucinaciones fluidas seguirán siendo comunes, y fácilmente inducido, continúa, y de hecho aumenta, el riesgo de que los modelos de lenguaje grandes se utilicen como una herramienta para crear información errónea que suena plausible pero es falsa. Es posible que existan barandillas (a la ChatGPT), pero las barandillas oscilarán entre ser demasiado débiles (superadas por «jailbreaks») y demasiado fuertes (rechazando algunas solicitudes perfectamente razonables). En cualquier caso, los malos actores eventualmente podrán replicar gran parte de GPT-4, prescindiendo de las barreras de seguridad existentes y utilizando sistemas de imitación para crear las narrativas que deseen.
Su salida de lenguaje natural aún no será algo que uno pueda conectar de manera confiable a los programas posteriores.; no será algo, por ejemplo, que puedas conectar simple y directamente a una base de datos oa un asistente virtual, con resultados predecibles. GPT-4 no tendrá modelos confiables de las cosas de las que habla que sean accesibles para programadores externos de una manera que alimente de manera confiable los procesos posteriores. Las personas que construyen cosas como asistentes virtuales encontrarán que no pueden mapear de manera suficientemente confiable el lenguaje del usuario en las intenciones del usuario.

GPT-4 por sí solo no será una inteligencia general artificial de propósito general capaz de asumir tareas arbitrarias. Sin ayudas externas no podrá vencer al Cicerón de Meta en Diplomacia; no podrá conducir un automóvil de manera confiable; no podrá guiar de manera confiable a un robot como Optimus para que sea tan versátil como Rosie the Robot. Seguirá siendo un generador de pastiche turboalimentado y una excelente herramienta para la lluvia de ideas y para los primeros borradores, pero no para la inteligencia general confiable.
La «alineación» entre lo que quieren los humanos y lo que hacen las máquinas seguirá siendo un problema crítico sin resolver. El sistema aún no podrá restringir su salida para seguir de manera confiable un conjunto compartido de valores humanos en torno a la utilidad, la inocuidad y la veracidad. Los ejemplos de sesgo oculto se descubrirán en días o meses. Algunos de sus consejos serán terriblemente malos.
Cuando llegue AGI (inteligencia artificial), los modelos de lenguaje grande como GPT-4 pueden verse en retrospectiva como parte de la solución final, pero solo como parte de la solución.. Solo «escalar» (construir modelos y modelos más grandes hasta que absorban todo Internet) resultará útil, pero solo hasta cierto punto. La inteligencia artificial general y confiable, alineada con los valores humanos, provendrá, cuando lo haga, de sistemas más estructurados, con más conocimiento incorporado, e incorporará al menos algún grado de herramientas explícitas para el razonamiento y la planificación, así como conocimiento explícito de TI, que falta en sistemas como GPT. Dentro de una década, tal vez mucho menos, el enfoque de la IA pasará de un enfoque puro en escalar grandes modelos de lenguaje a un enfoque en integrarlos con una amplia gama de otras técnicas. En retrospectivas escritas en 2043, los historiadores intelectuales concluirán que hubo un énfasis excesivo inicial en los grandes modelos de lenguaje y un cambio gradual pero crítico del péndulo de regreso a sistemas más estructurados con una comprensión más profunda.

Si las siete predicciones resultan correctas, espero que el campo finalmente se dé cuenta de que es hora de seguir adelante.

Siempre es divertido jugar con cosas brillantes, y espero que GPT-4 sea el más brillante hasta ahora, pero eso no significa que sea un paso crítico en el camino óptimo hacia la IA en el que podamos confiar. Para eso, predigo, necesitaremos arquitecturas genuinamente nuevas que incorporen conocimiento explícito y modelos del mundo en su núcleo mismo.

marcus gary (@garymarcus) es científico, autor de best-sellers y emprendedor. Su libro más reciente, en coautoría con Ernest Davis, Rebooting AI, es uno de los 7 Must Read Books en AI de Forbes.

entradas no encontradas