El chatbot que millones de personas han usado para escribir trabajos finales, código de computadora y cuentos de hadas no solo hace palabras. ChatGPT, la herramienta impulsada por inteligencia artificial de OpenAI, también puede analizar imágenes, describiendo lo que hay en ellas, respondiendo preguntas sobre ellas e incluso reconociendo rostros de personas específicas. La esperanza es que, eventualmente, alguien pueda subir una imagen del motor de un automóvil averiado o una erupción misteriosa y ChatGPT pueda sugerir la solución.
En lo que OpenAI no quiere que ChatGPT se convierta es en una máquina de reconocimiento facial.
Durante los últimos meses, Jonathan Mosen ha estado entre un grupo selecto de personas con acceso a una versión avanzada del chatbot que puede analizar imágenes. En un viaje reciente, el Sr. Mosen, director ejecutivo de una agencia de empleo que es ciego, usó el análisis visual para determinar qué dispensadores en el baño de una habitación de hotel eran champú, acondicionador y gel de ducha. Fue mucho más allá del rendimiento del software de análisis de imágenes que había usado en el pasado.
“Me dijo la capacidad en mililitros de cada botella. Me habló de los azulejos en la ducha”, dijo Mosen. “Describió todo esto de una manera que una persona ciega necesita escucharlo. Y con una imagen, obtuve exactamente las respuestas que necesitaba”.
Por primera vez, Mosen puede “interrogar imágenes”, dijo. Dio un ejemplo: el texto que acompañaba una imagen que encontró en las redes sociales la describía como una “mujer con cabello rubio que se ve feliz”. Cuando le pidió a ChatGPT que analizara la imagen, el chatbot dijo que era una mujer con una camisa azul oscuro que se tomaba una selfie en un espejo de cuerpo entero. Podía hacer preguntas de seguimiento, como qué tipo de zapatos usaba y qué más se veía en el reflejo del espejo.
“Es extraordinario”, dijo Mosen, de 54 años, que vive en Wellington, Nueva Zelanda, y ha demostrado la tecnología en un podcast que presenta sobre “vivir a ciegas”.
En marzo, cuando OpenAI anunció GPT-4, el último modelo de software que impulsa su chatbot de IA, la compañía dijo que era «multimodal», lo que significa que podía responder a mensajes de texto e imágenes. Si bien la mayoría de los usuarios han podido conversar con el bot solo de palabra, el Sr. Mosen obtuvo acceso anticipado al análisis visual de Be My Eyes, una empresa emergente que generalmente conecta a los usuarios ciegos con voluntarios videntes y brinda un servicio de atención al cliente accesible a las empresas. clientes. Be My Eyes se asoció con OpenAI este año para probar la «vista» del chatbot antes del lanzamiento de la función al público en general.
Recientemente, la aplicación dejó de brindarle a Mosen información sobre los rostros de las personas, diciendo que se habían ocultado por razones de privacidad. Estaba decepcionado, sintiendo que debería tener el mismo acceso a la información que una persona vidente.
El cambio reflejó la preocupación de OpenAI de haber construido algo con un poder que no quería lanzar.
La tecnología de la compañía puede identificar principalmente a figuras públicas, como personas con una página de Wikipedia, dijo Sandhini Agarwal, investigadora de políticas de OpenAI, pero no funciona de manera tan completa como las herramientas creadas para encontrar caras en Internet, como las de Clearview AI y PimEyes. . La herramienta puede reconocer al director ejecutivo de OpenAI, Sam Altman, en fotos, dijo Agarwal, pero no a otras personas que trabajan en la empresa.
Poner una característica de este tipo a disposición del público empujaría los límites de lo que generalmente se considera una práctica aceptable por parte de las empresas de tecnología de EE. UU. También podría causar problemas legales en jurisdicciones, como Illinois y Europa, que requieren que las empresas obtengan el consentimiento de los ciudadanos para usar su información biométrica, incluida una huella facial.
Además, a OpenAI le preocupaba que la herramienta dijera cosas que no debería sobre los rostros de las personas, como evaluar su género o estado emocional. OpenAI está descubriendo cómo abordar estos y otros problemas de seguridad antes de lanzar ampliamente la función de análisis de imágenes, dijo la Sra. Agarwal.
“Deseamos mucho que esta sea una conversación bidireccional con el público”, dijo. “Si lo que escuchamos es como, ‘En realidad no queremos nada de eso’, eso es algo con lo que estamos muy de acuerdo..”
Más allá de los comentarios de los usuarios de Be My Eyes, el brazo sin fines de lucro de la compañía también está tratando de idear formas de obtener «entradas democráticas» para ayudar a establecer reglas para los sistemas de IA.
La Sra. Agarwal dijo que el desarrollo del análisis visual no fue «inesperado», porque el modelo se entrenó mirando imágenes y texto recopilados de Internet. Señaló que ya existía un software de reconocimiento facial de celebridades, como una herramienta de Google. Google ofrece una opción de exclusión voluntaria para personas conocidas que no quieren ser reconocidas, y OpenAI está considerando ese enfoque.
La Sra. Agarwal dijo que el análisis visual de OpenAI podría producir «alucinaciones» similares a las que se habían visto con mensajes de texto. “Si le das una foto de alguien a punto de ser famoso, podría alucinar un nombre”, dijo. «Por ejemplo, si le doy una foto de un famoso director ejecutivo de tecnología, podría darme el nombre de un director ejecutivo de tecnología diferente».
La herramienta una vez describió incorrectamente un control remoto al Sr. Mosen, diciéndole con confianza que había botones que no estaban allí, dijo.
Microsoft, que ha invertido $10 mil millones en OpenAI, también tiene acceso a la herramienta de análisis visual. Algunos usuarios del chatbot Bing impulsado por inteligencia artificial de Microsoft han visto aparecer la función en una implementación limitada; después de cargar imágenes, recibieron un mensaje que les informa que «el desenfoque de privacidad oculta las caras del chat de Bing».
Sayash Kapoor, científico informático y candidato a doctorado en la Universidad de Princeton, usó la herramienta para decodificar un captcha, un control de seguridad visual destinado a ser inteligible solo para los ojos humanos. Incluso mientras descifraba el código y reconocía las dos palabras ocultas proporcionadas, el chatbot señaló que «los captchas están diseñados para evitar que los bots automatizados como yo accedan a ciertos sitios web o servicios».
“La IA simplemente está eliminando todas las cosas que se supone que separan a los humanos de las máquinas”, dijo Ethan Mollick, profesor asociado que estudia innovación y emprendimiento en la Escuela Wharton de la Universidad de Pensilvania.
Desde que la herramienta de análisis visual apareció repentinamente en la versión del chatbot de Bing del Sr. Mollick el mes pasado, convirtiéndolo, sin ninguna notificación, en una de las pocas personas con acceso anticipado, no ha apagado su computadora por temor a perderla. Le dio una foto de condimentos en un refrigerador y le pidió a Bing que sugiriera recetas para esos ingredientes. Se le ocurrió un «refresco de crema batida» y una «salsa cremosa de jalapeño».
Tanto OpenAI como Microsoft parecen conscientes del poder y las posibles implicaciones de privacidad de esta tecnología. Un portavoz de Microsoft dijo que la compañía no estaba «compartiendo detalles técnicos» sobre el desenfoque facial, sino que estaba trabajando «estrechamente con nuestros socios en OpenAI para mantener nuestro compromiso compartido con el despliegue seguro y responsable de las tecnologías de IA».