Saltar al contenido

Conozca a BloombergGPT: un modelo de lenguaje extenso con 50 mil millones de parámetros que ha sido entrenado en una variedad de datos financieros

6 de abril de 2023

El lanzamiento de 2020 de GPT-3 sirvió como un ejemplo convincente de las ventajas de entrenar modelos de lenguaje autorregresivos extremadamente grandes. El modelo GPT-3 tiene 175 000 millones de parámetros (un aumento de 100 veces con respecto al modelo GPT-2) y se desempeñó excepcionalmente bien en varias tareas actuales de LLM, incluida la comprensión de lectura, la respuesta a preguntas abiertas y el desarrollo de código. Muchos modelos adicionales han reproducido este rendimiento. Además, los datos muestran que los modelos grandes muestran comportamientos emergentes porque su tamaño les permite adquirir habilidades que no están disponibles para los modelos más pequeños. Un ejemplo famoso de comportamiento emergente es la capacidad de realizar tareas con indicaciones de pocos disparos, donde un modelo puede aprender una tarea con solo unos pocos ejemplos. Cuando aumenta el número de modelos de lenguaje, esta capacidad aumenta más allá del azar.

En general, las indicaciones de pocas tomas aumentan significativamente la cantidad de actividades que los modelos pueden manejar y disminuyen el costo de nivel de entrada para los clientes que buscan automatizar tareas de lenguaje novedoso. Después de GPT-3 se crearon modelos con 280 mil millones, 540 mil millones y 1 billón de parámetros. También se han estudiado varios elementos cruciales para desarrollar un LLM de alto rendimiento, incluidos varios propósitos de capacitación, modelos multilingües, modelos más efectivos y compactos, y la determinación de tamaños de capacitación eficientes en datos y parámetros. Estas iniciativas se han concentrado en gran medida en LLM generales capacitados en conjuntos de datos que abarcan una amplia gama de temas y dominios. El énfasis ha estado en el desarrollo de LLM con capacidades integrales, a pesar de que estos han incorporado ciertos conjuntos de datos para temas especializados como publicaciones biológicas.

Recomendado:  Microsoft ahora afirma que GPT-4 muestra 'chispas' de inteligencia general

Recientemente, los modelos entrenados utilizando únicamente datos específicos del dominio superaron a los LLM de uso general en tareas dentro de disciplinas particulares, como la ciencia y la medicina, a pesar de ser sustancialmente más pequeños. Estos resultados alientan la creación adicional de modelos específicos de dominio. Las tecnologías de PNL desempeñan un papel cada vez más importante en el vasto y creciente campo de la tecnología financiera. El análisis de sentimientos, la identificación de entidades nombradas, la categorización de noticias y la respuesta a preguntas son algunas de las tareas de la PNL financiera. Un sistema de dominio específico es necesario debido a la complejidad y el lenguaje del dominio económico, incluso si la gama de funciones es similar a las que se encuentran en los puntos de referencia estándar de la PNL. Sería beneficioso tener un LLM enfocado en el dominio financiero por todas las razones por las que los LLM generativos son atractivos en general, aprendizaje de pocas oportunidades, creación de textos, sistemas conversacionales, etc.

🚀 ÚNETE a la comunidad subreddit de ML más rápida

Ningún LLM ha sido diseñado o probado en tareas para el sector financiero. Sin embargo, hay modelos de lenguaje enmascarado ajustados para ello. Investigadores de Bloomberg y la Universidad John Hopkins entrenan a BloombergGPT, un modelo de lenguaje con 50 mil millones de parámetros que sirve a una variedad de operaciones del sector financiero. Adoptan un enfoque híbrido en lugar de crear un LLM pequeño o de propósito general basado únicamente en datos específicos del dominio. Los modelos genéricos eliminan el requisito de especialización durante el tiempo de capacitación, cubren muchos dominios y funcionan bien en una amplia gama de actividades. Sin embargo, los resultados de los modelos específicos de dominio actuales demuestran que los modelos genéricos no pueden ocupar su lugar. Si bien la mayoría de sus aplicaciones en Bloomberg están en el área financiera y están mejor atendidas por un modelo especializado, admiten una colección muy grande y diversificada de trabajos bien atendidos por un modelo genérico.

Recomendado:  Opinión: un campo minado legal espera a las empresas que buscan utilizar inteligencia artificial

Por lo tanto, se propusieron desarrollar un modelo que mantenga un rendimiento competitivo en los puntos de referencia de LLM de uso múltiple y ofrezca los mejores rendimientos de su clase en medidas financieras. Pueden hacer esto creando el conjunto de datos específico de dominio más grande hasta la fecha y utilizando las herramientas actuales de generación, recopilación y conservación de datos de Bloomberg. Dado que Bloomberg es principalmente un proveedor de datos financieros, sus analistas de datos han pasado más de 40 años recopilando y seleccionando artículos sobre terminología financiera. Realizan un seguimiento meticuloso de las fuentes de datos y los derechos de uso y tienen grandes archivos de datos financieros que abarcan una variedad de temas.

Combinan estos datos con conjuntos de datos abiertos para construir un corpus de entrenamiento considerable con más de 700 mil millones de tokens. Entrenan un modelo de estilo BLOOM de 50 mil millones de parámetros utilizando algunos de estos datos de entrenamiento. Los estándares LLM estándar, los puntos de referencia financieros abiertos y los puntos de referencia de propiedad de Bloomberg se utilizan para evaluar el modelo y garantizar que funcione según lo previsto. Sus hallazgos muestran que su técnica de capacitación combinada produce un modelo que se desempeña significativamente mejor que los modelos actuales en tareas financieras en el dominio, mientras que está a la par o mejor en los puntos de referencia para la PNL general.


Revisar la Papel. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 17k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencias de la Información e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones a su alrededor. Le encanta conectar con la gente y colaborar en proyectos interesantes.

Recomendado:  El robot le devolvió la sonrisa - ScienceDaily

🔥 Debe leer: ¿Qué es la alucinación de IA? ¿Qué falla con los chatbots de IA? ¿Cómo detectar una inteligencia artificial alucinante?