Exploración del árbol de indicaciones del pensamiento: cómo la IA puede aprender a razonar a través de la búsqueda

Imagen creada por el autor con Midjourney

Un nuevo artículo propone un marco de «Árbol de pensamientos» para permitir una resolución de problemas más deliberada

Representar el proceso de razonamiento como una búsqueda sobre un árbol de posibles «pensamientos»
Use el LLM mismo para generar y evaluar estos pensamientos

Emplee algoritmos de búsqueda clásicos para guiar la exploración.

Recientemente, los modelos de lenguaje extenso (LLM) como GPT-3 han demostrado habilidades impresionantes en áreas como el razonamiento matemático y el conocimiento del sentido común. Sin embargo, su método básico de generación de texto (de izquierda a derecha, token por token) puede limitar la planificación y exploración estratégica. El documento muestra que este enfoque mejora significativamente las habilidades de resolución de problemas de LLM en desafíos como acertijos matemáticos y escritura creativa.

Un artículo reciente, Árbol de los pensamientos: resolución deliberada de problemas con modelos de lenguaje extenso — por Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan — propone un nuevo marco llamado «Tree of Thoughts» (ToT) para mejorar las habilidades de resolución de problemas de los modelos de lenguaje grandes ( LLM) como GPT-3 y GPT-4. Actualmente, los LLM se limitan a la toma de decisiones a nivel de token de izquierda a derecha al generar texto, lo que puede quedarse corto en tareas que requieren una planificación y exploración más estratégicas.

ToT representa el proceso de resolución de problemas como una búsqueda en un árbol, donde cada nodo es un «pensamiento», un fragmento coherente de texto que representa un paso de razonamiento intermedio. Esto le permite al LLM explorar múltiples caminos de razonamiento y evaluar el progreso de diferentes pensamientos hacia la solución del problema. Específicamente, el marco implica:

Descomponer el problema en pasos de pensamiento coherentes basados en la estructura de la tarea.
Usar el LLM para generar múltiples candidatos de pensamiento en cada paso, ya sea de forma independiente o condicionada secuencialmente a pensamientos previos.

Lograr que el LLM evalúe la promesa de diferentes estados (soluciones parciales) a través de indicadores de estimación de valor que evalúen el progreso hasta el momento.
Usando algoritmos de búsqueda clásicos como la búsqueda primero en amplitud o la búsqueda primero en profundidad en el árbol, usando las estimaciones de valor de LLM para guiar la exploración y la poda.

Esta búsqueda deliberada le permite al LLM mirar hacia adelante, retroceder y tomar decisiones más globales cuando sea necesario. El marco modular es independiente del modelo y puede adaptar de manera flexible sus componentes, como el tamaño del pensamiento, la generación, la evaluación y la búsqueda, a la estructura del problema.

Los autores demuestran ToT en tres tareas novedosas: Juego de 24, Escritura creativa y Minicrucigramas. En todos los casos, ToT aumenta significativamente el rendimiento de resolución de problemas de GPT-4 sobre las líneas de base de indicaciones estándar. Por ejemplo, en Game of 24, la tasa de éxito aumentó del 4 % con indicaciones de cadena de pensamientos al 74 % con ToT.

En general, ToT ofrece una forma de integrar la planificación simbólica y los métodos de búsqueda de la IA clásica con los LLM modernos. La interpretabilidad de sus pensamientos y deliberaciones basados en el lenguaje también brinda oportunidades para una mejor alineación humana. Los autores lo proponen como una nueva y emocionante dirección para desarrollar capacidades más generales de resolución de problemas en los LLM.

¿Cómo se compara el enfoque Tree of Thoughts con otros métodos que incorporan planificación simbólica o búsqueda con modelos neuronales, como la decodificación NeuroLogic o el marco LLM+P?

El marco de ToT se diferencia en que utiliza el propio LLM para proporcionar orientación heurística durante la búsqueda, en lugar de depender de un planificador clásico independiente (LLM+P) o heurísticas codificadas (NeuroLogic). La representación del pensamiento basada en el lenguaje también es más flexible que los lenguajes de planificación simbólica. Sin embargo, ToT aún no alcanza el nivel de estrecha integración y comunicación bidireccional entre los componentes de LLM y del planificador que demuestra LLM+P.

¿Se podría aplicar el enfoque del Árbol de los pensamientos a tareas de lenguaje natural como el diálogo conversacional o la generación de historias, en lugar de solo tareas de razonamiento restringido?

Si bien el documento actual se enfoca en tareas de razonamiento, el marco general de representación de posibles continuaciones como pensamientos sobre los que se puede deliberar parece aplicable a problemas de generación menos restringidos. Para el diálogo, los pensamientos podrían ser declaraciones candidatas para decir a continuación, mientras que para las historias podrían ser puntos de la trama o acciones de los personajes. Los desafíos clave serían definir pasos de pensamiento coherentes y desarrollar pautas de evaluación efectivas.

¿Qué tiene de innovador esta investigación?

La innovación clave es enmarcar la inferencia del modelo de lenguaje como una búsqueda en un árbol de pensamientos en lugar de solo generar tokens de izquierda a derecha. Esto permite una planificación más deliberada, la exploración de alternativas y la búsqueda global anticipada/regresiva. Representar pensamientos como unidades semánticas coherentes también es innovador en comparación con los métodos de búsqueda anteriores.

¿Cuáles son las implicaciones más amplias de esta investigación?

Esta investigación podría mejorar significativamente las capacidades de resolución de problemas y razonamiento de los LLM, permitiendo su uso en aplicaciones más complejas del mundo real como codificación, análisis de datos, robótica, etc. También hace que las decisiones del modelo sean más interpretables. La integración de métodos de búsqueda clásicos con modelos neuronales es una dirección emocionante.

¿Cuáles son algunos problemas potenciales o descuidos con esta investigación tal como se presenta, si los hay?

Las tareas exploradas siguen siendo relativamente simples. Queda por ver si el enfoque se adapta a problemas más abiertos. Es probable que el proceso de búsqueda incurra en costos de cómputo más altos que el muestreo estándar. Las heurísticas para podar ramas subóptimas son actualmente imperfectas.

¿Cuáles son los próximos pasos lógicos de esta investigación?

Los próximos pasos importantes son explorar ToT en tareas más complejas de planificación y toma de decisiones, integrarlo con la recuperación de conocimiento externo y estudiar si las variantes se pueden aprender de manera más eficiente mediante muestras a través del metaaprendizaje o el aprendizaje por refuerzo en lugar de depender únicamente de un LLM preentrenado. . Analizar la interacción entre el tamaño del pensamiento, el presupuesto de búsqueda y el rendimiento también es una pregunta abierta.

El paradigma Tree of Thoughts demuestra cómo las técnicas de búsqueda clásicas se pueden integrar con los modelos modernos de redes neuronales.

Permitir que los LLM exploren caminos de razonamiento alternativos hace que su toma de decisiones sea más interpretable.
Esta dirección de investigación podría mejorar la aplicabilidad de los LLM a tareas complejas de análisis y planificación del mundo real.
Los próximos pasos clave son extender el enfoque a problemas menos restringidos, mejorar la eficiencia de la búsqueda y estudiar cómo se pueden aprender tales habilidades.

En general, el razonamiento deliberado y semántico de Tree of Thoughts ofrece una nueva y emocionante capacidad para los agentes artificiales.

Mateo Mayo (@mattmayo13) es científico de datos y editor en jefe de KDnuggets, el recurso en línea fundamental de ciencia de datos y aprendizaje automático. Sus intereses radican en el procesamiento del lenguaje natural, el diseño y la optimización de algoritmos, el aprendizaje no supervisado, las redes neuronales y los enfoques automatizados para el aprendizaje automático. Matthew tiene una maestría en ciencias de la computación y un diploma de posgrado en minería de datos. Se le puede contactar en editor1 en kdnuggets[dot]com.