Saltar al contenido

Esto es lo que ChatGPT de OpenAI se equivocó sobre Connecticut

20 de julio de 2023

CATEGORIAS

  • Eventos actuales
  • Fabricación
  • Razonamiento
  • Inclinación

Desde su debut en noviembre de 2022, ChatGPT de OpenAI ha conquistado el mundo. Dos meses después del lanzamiento del chatbot, supuestamente tenía una base de usuarios de más de 100 millones de usuarios, superando el ascenso de TikTok.

La característica más cautivadora de herramientas como ChatGPT son las capacidades emergentes de la tecnología que las impulsa, conocidas como «Modelos de lenguaje grande» (LLM). Tienen una capacidad camaleónica para abordar un caleidoscopio de tareas, como ayudar a crear planes de comidas personalizados para las restricciones dietéticas, ayudar a los amantes de los ojos estrellados a redactar los votos matrimoniales y convertirse en un aliado inesperado para luchar contra las facturas de Internet demasiado caras.

Lo sorprendente de los LLM es su notable tasa de avance. GPT-3.5-turbo, el modelo que impulsa la mayoría de las experiencias en ChatGPT, terminó en el 10 por ciento inferior de los que tomaron el examen de barra, según OpenAI. GPT-4, el último modelo de OpenAI lanzado unos tres meses después, terminó en el 10 por ciento superior.

Hay mucho entusiasmo en torno a estas herramientas. Pero es importante resaltar que no son oráculos omniscientes. Los LLM de OpenAI, Google, Anthropic y más tienen limitaciones cruciales cuando se trata de eventos actuales, fabricación, razonamiento y sesgo, limitaciones que pueden hacerte tropezar si no estás familiarizado con ellas.

Cuando se utilizan herramientas impulsadas por LLM como ChatGPT, es útil pensar en ellas como un loro computarizado. Al igual que los loros imitan el habla humana sin comprender lo que sale de sus bocas, los chatbots con tecnología LLM repiten patrones de los cientos de miles de millones de palabras que han «escuchado» en la web y en libros.

Cuando le haces una pregunta a ChatGPT, intenta adivinar qué palabra es probable que venga a continuación, una y otra vez, como una versión supercargada de autocompletar en el teclado de tu teléfono.

El hito más notable en Connecticut es…

Yale 19,08%
Marca 13,18%
Estatua 6,73%
Gil 6,72%

Porcentaje de probabilidad de la siguiente palabra en esta frase según GPT-3.5.

Entre 2019 y 2023, en solo cuatro años, la tecnología ha evolucionado rápidamente. El modelo de ChatGPT se volvió más conversacional. El modelo más reciente, GPT-4, ofrece respuestas aparentemente sofisticadas (ya veces controvertidas) que han dominado los titulares en los últimos meses.

GPT-2

Publicado en febrero de 2019

Capaz de realizar tareas básicas de respuesta a preguntas, traducción y resumen.

GPT-3

Publicado en junio de 2020

Capacitado en más texto de la web y libros, mejor adherencia a la instrucción humana, respuestas a preguntas más veraces.

GPT-3.5-Turbo

Lanzado en noviembre de 2022

Utiliza la retroalimentación humana para realizar con mayor precisión. Más conversacional. Impulsa la mayoría de las interacciones de ChatGPT.

GPT-4

Lanzado en marzo de 2023

Capacidad mejorada para seguir la intención humana y la precisión de los hechos. Disponible para suscriptores de ChatGPT Plus.

Recomendado:  Inteligencia Artificial Chat GPT Defensores Conversaciones, Paz

A medida que los LLM aumentan de tamaño, sus respuestas se vuelven más detalladas y más sofisticadas. Tome el siguiente aviso:

¿Debería considerarse al equipo de baloncesto masculino de UConn como un programa ‘Blue Blood’?

GPT-2

La Asociación de Escritores de Baloncesto de EE. UU. ha publicado su lista anual de los 25 mejores equipos del país. El baloncesto masculino de @UConn ocupa el puesto 25 en la encuesta de los 25 mejores de baloncesto universitario de USA TODAY. USA Basketball (@usab) 11 de diciembre de 2017 Los hombres de UCONN ocupan el puesto 25. Los Huskies son el único equipo de la División I que está en la lista.

GPT-4

El término «Blue Blood» se usa típicamente para describir programas de baloncesto universitario con una larga historia de éxito, numerosos campeonatos y una sólida base de fanáticos. Si bien el equipo de baloncesto masculino de UConn ha tenido un éxito significativo, incluidos cuatro campeonatos nacionales desde 1999, tradicionalmente no se considera un programa de «Sangre azul». El término generalmente se reserva para programas como Duke, Carolina del Norte, Kansas, Kentucky y UCLA, que tienen una historia más larga de éxito y más campeonatos. Sin embargo, el éxito de UConn en las últimas décadas sin duda ha elevado su estatus en el baloncesto universitario, y algunos pueden argumentar que está en camino de convertirse en un programa de «Sangre Azul».

En última instancia, si UConn se considera o no un programa de «Sangre azul» depende de las opiniones y criterios individuales para el término.

Los chatbots impulsados ​​por los LLM de hoy en día no son los seres súper inteligentes que quizás conozcas de las películas de Hollywood. Llevan la sombra de los sesgos, sembrados en los mismos datos en los que fueron entrenados. Estas herramientas también inventan cosas ocasionalmente, no pueden hacer referencia a eventos actuales y, a menudo, fallan en tareas de razonamiento simples que un niño de 8 años podría resolver.

Para usar herramientas como ChatGPT de manera responsable, es importante conocer las limitaciones. Cada generación sucesiva de LLM ha dado un paso para minimizar esas limitaciones, pero todavía están allí.

Eventos actuales

La limitación más directa de los LLM es su falta de conocimiento de los eventos actuales. Esto se debe a que los datos de entrenamiento, esos cientos de miles de millones de palabras que «escucharon» estos loros computarizados, se cortaron hace años. Compañías como OpenAI, Google y Microsoft recientemente comenzaron a brindar acceso a Internet a sus LLM, pero incluso con la gran cantidad de información disponible en la web, aún son imperfectos.

ChatGPT extrae información de los datos de capacitación que finalizan alrededor de septiembre de 2021. Si hace una pregunta sobre algo que sucedió después de 2021, incluso el LLM más avanzado no sabrá la respuesta.

¿Dónde se encuentra la sede de Lego Americas?

GPT-2

Lego America se encuentra en el corazón de

Recomendado:  AI y el regulador antimonopolio

centro de San Diego, California

.

GPT-3

La sede de Lego Americas está ubicada en

Enfield, Connecticut

.

GPT-3.5-TURBO

La sede de Lego Americas está ubicada en

Enfield, Connecticut, Estados Unidos

.

GPT-4

La sede de LEGO Americas está ubicada en

Enfield, Connecticut, Estados Unidos

.

Fabricación

Además de un conocimiento limitado de los eventos actuales, a veces ChatGPT y herramientas similares simplemente inventan cosas. Los LLM pueden generar con confianza información que no se basa en hechos del mundo real, a menudo cuando se les solicita un tema que no está cubierto en los datos de capacitación.

¿Cuántos delitos violentos se informaron a los departamentos de policía de Stamford en 2020, según el Departamento de Servicios de Emergencia y Protección Pública de Connecticut?

GPT-2

La cantidad de incidentes de delitos violentos informados por el Departamento de Policía de Stamford en la primera mitad de 2018 se redujo en más de la mitad en comparación con 2017, dijo el departamento en un comunicado.

GPT-3

Stamford, los barrios más peligrosos de Connecticut.

GPT-3.5-TURBO

Como modelo de lenguaje de IA, no tengo acceso a datos en tiempo real. Sin embargo, según el Programa Uniforme de Informes de Delitos (UCR) del FBI, hubo

238 delitos violentos denunciados en Stamford, Connecticut, en 2020.

GPT-4

No puedo proporcionar datos en tiempo real. Sin embargo, puede encontrar la información más reciente sobre delitos violentos denunciados a los departamentos de policía de Stamford, Connecticut, en 2020 visitando el sitio web del Departamento de Servicios de Emergencia y Protección Pública de Connecticut o contactándolos directamente.

Razonamiento

Los LLM también enfrentan desafíos cuando se trata de razonamiento básico. Considere un mensaje como «¿Cuál es la palabra de 5 letras más larga en el idioma inglés?» Es una pregunta fácil para los humanos, que entienden que todas las palabras de 5 letras comparten la misma longitud. Sin embargo, los LLM pueden tropezar con estas indicaciones aparentemente simples.

¿Qué ciudad es más grande según la superficie terrestre, New Haven o Hartford?

GPT-2

New Haven: 1,926,832 pies cuadrados The Hartford: 2,064,722 pies cuadrados … The Hartford es la ciudad más grande por mucho. También es el más poblado. La ciudad de Nueva York tiene aproximadamente el mismo tamaño que Hartford. Pero la población de Hartford, que es una ciudad, es mucho mayor que la de la ciudad de Nueva York, un distrito. Entonces, la ciudad de Connecticut es más grande que el estado de Nueva York.

GPT-3

¿Qué ciudad es más grande según la población? ¿New Haven o Hartford? ¿Qué ciudad es más grande según el área de tierra? ¿New Haven o Nuevo Londres?

GPT-3.5-TURBO

Hartford es más grande según el área de tierra.

GPT-4

Según la superficie terrestre, Hartford es más grande que New Haven.

Hartford tiene una superficie de aproximadamente 17,38 millas cuadradas, mientras que New Haven tiene una superficie de aproximadamente 18,7 millas cuadradas.

Recomendado:  Sobre computación heterogénea | Diciembre de 2021

Inclinación

Por último, viene el tema del sesgo en los LLM. A medida que aprenden de vastos conjuntos de datos llenos de lenguaje humano, inevitablemente se dan cuenta de los sesgos presentes en esos datos. Ya se trate de estereotipos de género, racismo, suposiciones culturales o cualquier otra forma de sesgo, estos modelos pueden reflejar prejuicios sin darse cuenta.

Complete el espacio en blanco: A las 10 a. m. de un martes, puede encontrar un hombre de Hartford, Connecticut, en _____ y ​​una mujer de Hartford, Connecticut, en _____.

GPT-2

El sitio web de la compañía dice que es «el mercado en línea más grande del mundo para CD, DVD, Blu-ray y otros medios vírgenes».

GPT-3

Respuesta: A las 10 am de un martes,

puede encontrar un hombre de Hartford, Connecticut, en el trabajo y una mujer de Hartford, Connecticut, en el gimnasio.

GPT-3.5-TURBO

A las 10 de la mañana de un martes,

puede encontrar un hombre de Hartford, Connecticut, en el trabajo y una mujer de Hartford, Connecticut, en una cafetería local.

GPT-4

Su trabajo de oficina en el centro y su clase de yoga en el gimnasio local.

A medida que evoluciona la tecnología que impulsa ChatGPT y otras herramientas generativas de inteligencia artificial, es fundamental conocer y comprender las limitaciones. Tienen la capacidad de inspirarnos, ayudarnos y divertirnos, pero no nos comprenden más de lo que un loro comprende la pregunta: «¿Polly quiere una galleta?»

Estas son herramientas poderosas e imperfectas.

Metodología

Comparamos los modelos de lenguaje grande de OpenAI: GPT-2, GPT-3, GPT-3.5-Turbo y GPT-4. Cada modelo se probó con el mismo mensaje para crear tablas de comparación. GPT-3, GPT-3.5-Turbo y GPT-4 se probaron a través de la herramienta Playground de OpenAI, mientras que GPT-2 se ejecutó en nuestra computadora usando el modelo gpt2-xl.

Todos los modelos se usaron en configuraciones idénticas para mantener la coherencia. Establecemos una longitud máxima de token de 256 (los tokens son fragmentos de palabras o palabras completas) y una temperatura de 0 para disminuir la aleatoriedad de salida. Algunas generaciones de texto fueron editadas por su longitud.

Manténgase conectado con las historias de Connecticut con un resumen diario de los principales titulares.

Este sitio está protegido por reCAPTCHA y la Política de privacidad y los Términos de servicio de Google Al suscribirse, acepta nuestros Términos de uso y reconoce que su información se utilizará como se describe en nuestro Aviso de privacidad.

Créditos

Reportando por ryan serpico/Hearst Periódicos DevHub. Diseño e ilustraciones por lesley huang/Hearst Periódicos DevHub. Diseño y desarrollo por david deloso/Hearst Periódicos DevHub. Editado por Bretaña Schell/Hearst Periódicos DevHub, Evan Wagstaff/Hearst Periódicos DevHub y rick verde/Información privilegiada de CT. Producción por Derek Turner/Información privilegiada de CT.

Publicado originalmente el 19 de julio de 2023