IBM: habrá muchos más modelos básicos como GPT: jefe de investigación de IBM

Una serie de modelos básicos, como GPT-4 que potencia ChatGPT, surgirán a medida que las empresas y organizaciones busquen crear soluciones de IA que generen contenido que sea más confiable y confiable que los modelos existentes, dice Dario Gil, vicepresidente senior y director de investigación de IBM. . También se pueden requerir diferentes modelos de cimientos, dice, para diferentes casos de uso.
Los sistemas de IA que conocemos hasta ahora se han utilizado para clasificar datos (como asignar etiquetas a imágenes, por ejemplo, para identificar gatos o perros), para agrupar datos (por ejemplo, para identificar segmentos de clientes con un comportamiento de compra similar). Pero fue difícil hacer esa IA. Se necesitaba una gran cantidad de científicos de datos, recopilación de muchos datos, etiquetado de todos los datos, mucha capacitación. Gil dice que si un banco quisiera crear un chatbot que interactúe con los clientes sobre hipotecas, tomaría de 6 a 8 meses y costaría mucho dinero. Y si luego quisiera crear otro chatbot para tarjetas de crédito, tendría que empezar casi desde cero. Por eso, dice, la adopción global de la IA ha sido modesta hasta ahora.
Pero los modelos de base, dice, están cambiando esta ecuación. La creación del modelo de base, dice, será difícil y costosa, y eso lo realizarán principalmente las grandes empresas de tecnología con muchos recursos y experiencia. Pero la gran ventaja de los modelos básicos es el proceso de aprendizaje automático que utiliza, donde el modelo se entrena a sí mismo para aprender una parte de la entrada de otra parte de la entrada, o lo que se denomina aprendizaje autosupervisado. Si le proporciona suficientes datos, se dará cuenta por sí solo, por ejemplo, de que la palabra después de «Me encanta» probablemente sea «usted». No es necesario etiquetar y entrenar los datos.
IA de bajo costo
“Entonces, una vez que tenga una familia de modelos básicos, usarlos para crear aplicaciones y modelos derivados de IA será muy económico”, dice Gil. Esto significa que un solo chatbot puede responder preguntas sobre hipotecas, tarjetas de crédito y muchas otras cosas. “Si no lo hizo tan bien, aún puede usar el mismo modelo base y ajustarlo, agregar algunos documentos más y obtener un resultado final que en realidad es de mayor calidad que si lo hubiera creado desde cero con el método antiguo. Entonces habrá una mejora de la productividad que será muy significativa. Y la cantidad de aplicaciones que la gente podrá crear se multiplicará”, dice Gil.
Un modelo básico que se basa en el lenguaje se denomina modelo de lenguaje grande (LLM). Puede permitirle hacer cosas como diálogo, resumen, generación de texto, traducción y muchas otras cosas. En el caso de OpenAI, su LLM rastreó toda la información disponible públicamente de la web para poder crear ChatGPT, y hoy en día puede realizar numerosas tareas.
Pero debido a que es información pública, y mucha de la información disponible públicamente no es precisa, ChatGPT termina cometiendo errores con frecuencia. Pero las empresas no pueden permitirse cometer errores. El GPT de OpenAI, reconoce Gil, es un experimento fascinante que ha despertado al mundo a las posibilidades de la IA. Pero el modelo, dice, es una caja negra, con poca información sobre los datos que contiene.
Necesito confianza
Las empresas, dice, necesitan confianza, necesitan conjuntos de datos sobre los que tengan derechos, que hayan sido curados cuidadosamente, que hayan eliminado el odio, la blasfemia, uno que les permita explicar cómo funciona, especialmente si son entidades reguladas. Necesitan modelos que puedan combinar datos externos con sus datos internos. Por lo tanto, surgirán muchos modelos de base para satisfacer tales necesidades.
La estrategia de IBM, dice, es proporcionar a los clientes la plataforma con la que construir, validar, ajustar e implementar modelos básicos, aprovechando tanto los datos abiertos que la empresa puede seleccionar como los datos propietarios que solo sus clientes tienen. “Y permitiremos que esos modelos básicos se incorporen dentro de aplicaciones que sean relevantes para nuestros clientes y socios”, dice.
‘El momento más emocionante de la informática desde la década de 1940’
Dario Gil, jefe de IBM Research, dice que vivimos en el momento más emocionante de la informática desde quizás las décadas de 1940 y 1950, cuando aparecieron las computadoras. La razón, dice, es la convergencia de bits, neuronas y qubits.
Bits es el mundo de la computación tradicional de alta precisión, basada en tecnología de semiconductores. Las neuronas son la encarnación de las redes neuronales, que son el núcleo de la inteligencia artificial. Y los qubits son la base de la computación cuántica.
Quantum, dice Gil, no reemplazará a la computación clásica, porque no podrá hacer de manera eficiente muchas de las cosas que esta última puede hacer. Pero las máquinas cuánticas, señala, funcionan de acuerdo con las leyes de la mecánica cuántica, y los procesos naturales de la química, la ciencia de los materiales y la biología también obedecen las leyes de la mecánica cuántica, por lo que las máquinas cuánticas deberían poder simular mucho más eficientemente cómo funciona la naturaleza. “Y podemos usar las mejores partes de la IA y las mejores partes de la computación de alto rendimiento para acelerar significativamente el descubrimiento de, digamos, nuevas moléculas, nuevas propiedades. Y eso puede permitirnos reducir más rápidamente el costo de almacenar electricidad o mejorar la densidad de las baterías, hacerlas más seguras y desarrollar mejores catalizadores utilizados en procesos industriales”, dice.
India en I+D
Gil, que estuvo en Bangalore con motivo del 25 aniversario de IBM Research en el país, dice que IBM fue probablemente la primera multinacional en establecer un laboratorio de investigación en India. El equipo de India, dice, se ha vuelto increíblemente importante para IBM. “También es muy singular: no solo tiene laboratorios de investigación, sino también laboratorios de desarrollo tanto para software como para sistemas. Esto no es común fuera de los Estados Unidos”, dice.
El centro de la India, dice, tiene mucha fuerza en IA y en tecnologías de nubes múltiples. “Cuenta con un equipo de algoritmos y aplicaciones en la división de investigación cuántica. La investigación de semiconductores es modesta, pero nuestra ambición es tener más capacidad y desarrollar una mayor autonomía estratégica aquí con el tiempo. Estamos teniendo muchos diálogos sobre eso. Sin embargo, trabajamos mucho aquí en el diseño de semiconductores para productos de IBM como mainframes y Power Systems”, dice.