Saltar al contenido

¿Qué es la ingeniería rápida y cómo funciona?

8 de julio de 2023

La ingeniería rápida se ha convertido en un método poderoso para optimizar los modelos de lenguaje en el procesamiento del lenguaje natural (NLP). Implica crear indicaciones eficientes, a menudo denominadas instrucciones o preguntas, para dirigir el comportamiento y la salida de los modelos de IA.

Debido a la capacidad de la ingeniería rápida para mejorar la funcionalidad y la gestión de los modelos de lenguaje, ha llamado mucho la atención. Este artículo profundizará en el concepto de ingeniería rápida, su significado y cómo funciona.

Comprender la ingeniería rápida

La ingeniería rápida implica la creación de preguntas o instrucciones precisas e informativas que permitan a los usuarios adquirir los resultados deseados de los modelos de IA. Estas indicaciones sirven como entradas precisas que dirigen el comportamiento del modelado del lenguaje y la generación de texto. Los usuarios pueden modificar y controlar la salida de los modelos de IA estructurando cuidadosamente las indicaciones, lo que aumenta su utilidad y confiabilidad.

Relacionado: Cómo escribir avisos efectivos de ChatGPT para obtener mejores resultados

Historia de la ingeniería rápida

En respuesta a la complejidad y las capacidades en expansión de los modelos de lenguaje, la ingeniería rápida ha cambiado con el tiempo. Aunque la ingeniería rápida puede no tener una larga historia, sus fundamentos se pueden ver en las primeras investigaciones de PNL y la creación de modelos de lenguaje de IA. Aquí hay una breve descripción de la historia de la ingeniería rápida:

Era anterior al transformador (antes de 2017)

La ingeniería rápida era menos común antes del desarrollo de modelos basados ​​en transformadores como Transformador preentrenado generativo (GPT) de OpenAI. El conocimiento contextual y la adaptabilidad faltan en los modelos de lenguaje anteriores, como las redes neuronales recurrentes (RNN) y las redes neuronales convolucionales (CNN), lo que restringe el potencial para la ingeniería rápida.

Recomendado:  Por qué Meta, Google y Microsoft quieren que le tengas miedo a la IA

La formación previa y el surgimiento de los transformadores (2017)

La introducción de los transformadores, específicamente con el artículo “Attention Is All You Need” de Vaswani et al. en 2017, revolucionó el campo de la PNL. Los transformadores hicieron posible entrenar previamente modelos de lenguaje a gran escala y enseñarles cómo representar palabras y oraciones en contexto. Sin embargo, a lo largo de este tiempo, la ingeniería rápida era todavía una técnica relativamente inexplorada.

Puesta a punto y el auge de GPT (2018)

Un importante punto de inflexión para la ingeniería rápida se produjo con la introducción de los modelos GPT de OpenAI. Los modelos GPT demostraron la efectividad del entrenamiento previo y el ajuste fino en tareas posteriores particulares. Para una variedad de propósitos, los investigadores y profesionales han comenzado a utilizar técnicas de ingeniería rápida para dirigir el comportamiento y la salida de los modelos GPT.

Avances en técnicas de ingeniería rápida (2018-presente)

A medida que crecía la comprensión de la ingeniería rápida, los investigadores comenzaron a experimentar con diferentes enfoques y estrategias. Esto incluyó el diseño de indicaciones ricas en contexto, el uso de plantillas basadas en reglas, la incorporación de instrucciones del usuario o del sistema y la exploración de técnicas como el ajuste de prefijos. El objetivo era mejorar el control, mitigar los sesgos y mejorar el rendimiento general de los modelos de lenguaje.

Contribuciones y exploración de la comunidad (2018-presente)

A medida que la ingeniería rápida ganaba popularidad entre los expertos en PNL, académicos y programadores comenzaron a intercambiar ideas, lecciones aprendidas y mejores prácticas. Los foros de discusión en línea, las publicaciones académicas y las bibliotecas de código abierto contribuyeron significativamente al desarrollo de métodos de ingeniería rápidos.

Recomendado:  Abre la puerta de Pod Bay, ChatGPT • The Register

Investigación en curso y direcciones futuras (presente y más allá)

La ingeniería rápida continúa siendo un área activa de investigación y desarrollo. Los investigadores están explorando formas de hacer que la ingeniería rápida sea más eficaz, interpretable y fácil de usar. Se están investigando técnicas como recompensas basadas en reglas, modelos de recompensa y enfoques humanos en el circuito para refinar las estrategias de ingeniería rápida.

Importancia de la ingeniería rápida

La ingeniería rápida es esencial para mejorar la usabilidad y la interpretabilidad de los sistemas de IA. Tiene una serie de beneficios, entre ellos:

Control mejorado

Los usuarios pueden dirigir el modelo de lenguaje para generar las respuestas deseadas dando instrucciones claras a través de avisos. Este grado de supervisión puede ayudar a garantizar que los modelos de IA proporcionen resultados que cumplan con estándares o requisitos predeterminados.

Reducir el sesgo en los sistemas de IA

La ingeniería rápida se puede utilizar como una herramienta para reducir el sesgo en los sistemas de IA. Los sesgos en el texto generado se pueden encontrar y reducir mediante el diseño cuidadoso de las indicaciones, lo que lleva a resultados más justos e igualitarios.

Modificación del comportamiento del modelo

Los modelos de lenguaje se pueden modificar para mostrar los comportamientos deseados mediante ingeniería rápida. Como resultado, los sistemas de IA pueden convertirse en expertos en tareas o dominios particulares, lo que mejora su precisión y confiabilidad en casos de uso particulares.

Relacionado: Cómo usar ChatGPT como un profesional

Cómo funciona la ingeniería rápida

La ingeniería de avisos utiliza un proceso metódico para crear avisos potentes. Aquí hay algunas acciones cruciales:

Especificar la tarea

Establece el fin u objetivo preciso que quieres que logre el modelo lingüístico. Puede estar involucrada cualquier tarea de PNL, incluida la finalización de textos, la traducción y el resumen.

Recomendado:  ChatGPT: Descubre que las cuentas robadas ya se ofrecen en la Dark Web

Identificar las entradas y salidas.

Defina claramente las entradas requeridas por el modelo de lenguaje y las salidas deseadas que espera del sistema.

Crear avisos informativos

Cree avisos que comuniquen claramente el comportamiento esperado al modelo. Estas preguntas deben ser claras, breves y apropiadas para el propósito dado. Encontrar las mejores indicaciones puede requerir prueba y error y revisión.

Iterar y evaluar

Ponga a prueba las indicaciones creadas introduciéndolas en el modelo de lenguaje y evaluando los resultados. Revise los resultados, busque fallas y modifique las instrucciones para mejorar el rendimiento.

Calibración y puesta a punto

Tenga en cuenta los resultados de la evaluación al calibrar y ajustar las indicaciones. Para obtener el comportamiento del modelo requerido y asegurarse de que esté en línea con el trabajo y los requisitos previstos, este procedimiento implica realizar ajustes menores.