Orca-Matemáticas. Demostrando el potencial de los SLM con especialización de modelos

líneas onduladas abstractas sobre fondo degradado

Nuestro trabajo en Orca y Orca 2 demostró el poder de las señales y métodos de aprendizaje mejorados para aumentar las capacidades de razonamiento de modelos de lenguaje más pequeños y acercarlos a los niveles de modelos de lenguaje mucho más grandes. Orca-Math es otro paso en esta dirección, donde exploramos las capacidades de los modelos de lenguaje pequeño (SLM) cuando se especializan en un dominio particular, en este caso la resolución de problemas matemáticos en el aula, que durante mucho tiempo se ha reconocido como un problema difícil para los SLM.

Orca-Math es un modelo de 7 mil millones de parámetros creado refinando el modelo Mistral 7B. Orca-Math logra un 86,81% en GSM8k pass@1, superando a muchos modelos más grandes, incluidos los modelos generales (como LLAMA-2-70, Gemini Pro y GPT-3.5) y modelos matemáticos específicos (por ejemplo, MetaMath-70B y WizardMa8th- ). 70B). Cabe destacar que el modelo base (Mistral-7B) alcanza el 37,83% en GSM8K.

Texto alternativo:  Gráfico que compara la puntuación de diferentes modelos GSM8K con tendencia de alta calidad.  Los modelos son: LLAMA-2-70, GPT-3.5, Gemini Pro, WizardMath-70B, MetaMath-70B y Orca-Math-7B.  El gráfico muestra que el modelo Orca-Math-7B supera a los otros modelos GSM8K más grandes.
Gráfico de barras que compara la puntuación de diferentes modelos GSM8K con tendencia de alta calidad. Los modelos son: LLAMA-2-70, GPT-3.5, Gemini Pro, WizardMath-70B, MetaMath-70B y Orca-Math-7B. El gráfico muestra que el modelo Orca-Math-7B supera a los otros modelos GSM8K más grandes.

El rendimiento de vanguardia (SOTA) del modelo Orca-Math se puede atribuir a dos ideas clave.

  • Entrenamiento de datos sintéticos de alta calidad con 200.000 problemas matemáticos generados mediante multiagentes (AutoGen). Es más pequeño que otros conjuntos de datos matemáticos, que pueden tener millones de problemas. Un modelo más pequeño y una base de datos más pequeña significan una formación más rápida y económica.
  • Además del refinamiento supervisado tradicional, el modelo se entrenó a través de un proceso de aprendizaje iterativo en el que se le permite practicar la resolución de problemas y continúa mejorando en función de los comentarios de los maestros.

Enfoque: una experiencia impulsada por IA

Experiencia en copia de investigación de Microsoft

Descubra más sobre la investigación en Microsoft con nuestra experiencia impulsada por IA


Nuestros hallazgos sugieren que los modelos pequeños son valiosos en entornos especializados donde pueden igualar el rendimiento de modelos mucho más grandes, al tiempo que resaltan el potencial para el aprendizaje continuo y el uso de retroalimentación para mejorar los modelos de lenguaje. Estamos creando la base de datos. (se abre en una nueva pestaña) disponible públicamente con el informe (se abre en una nueva pestaña) que describe un procedimiento de formación para fomentar la investigación sobre el refinamiento y la especialización de modelos de lenguaje más pequeños.

Enseñar matemáticas a los SLM

Desde hace tiempo se reconoce que la resolución de problemas matemáticos planteados es una tarea desafiante para los SLM. Los modelos que logran una precisión superior al 80 % en el punto de referencia GSM8K (GSM8K, que significa Grade School Math 8K, es una colección de 8.500 problemas planteados de matemáticas de escuela primaria de alta calidad que requieren razonamiento de varios pasos) normalmente superan los 30 mil millones de parámetros.

Para lograr mayores niveles de rendimiento con modelos más pequeños, los investigadores suelen entrenar a los SLM para que generen código o utilicen calculadoras para evitar errores computacionales. Además, utilizan una técnica llamada conjunto, en la que el modelo se llama hasta 100 veces, y cada llamada intenta resolver un problema. La compilación proporciona un aumento significativo en la precisión, pero con un aumento significativo en el costo computacional debido a las múltiples llamadas al modelo.

Esta investigación tiene como objetivo explorar hasta qué punto podemos mejorar las capacidades nativas de modelos de lenguaje más pequeños cuando están especializados para resolver problemas matemáticos sin el uso de herramientas, verificadores o conjuntos externos. Más concretamente, nos centramos en dos áreas.

Instrucción del agente:

Trabajos anteriores sobre generación de datos sintéticos a menudo utilizan modelos de límites para generar problemas similares basados ​​en el problema de las semillas. Proporcionar paráfrasis iniciales con diferentes números y atributos puede resultar útil para generar datos de entrenamiento para un modelo pequeño. Proponemos utilizar flujos de múltiples agentes utilizando AutoGen para generar nuevos problemas y soluciones, que no solo pueden crear más exposiciones a problemas, sino también aumentar la variedad y el rango de dificultad de los problemas.

Para problemas más desafiantes, creamos un grupo de agentes con un equipo que colaboran para crear una base de datos dirigida a un objetivo predefinido. Por ejemplo, podemos utilizar dos agentes, a saber Sugerir y: Editor:. El proponente examina el problema y sugiere varios métodos para aumentar su dificultad, mientras que el editor toma el problema escrito original y las sugerencias del proponente para generar un problema actualizado y más difícil. Este proceso iterativo puede tener lugar en varias etapas, y cada etapa aumenta la complejidad del problema anterior. Entonces un tercer agente puede confirmar que el problema tiene solución y crear la solución.

Aprendizaje iterativo

Se ha demostrado que el uso de datos de capacitación de alta calidad que pueden generar señales de aprendizaje más ricas (por ejemplo, explicaciones) mejora significativamente la capacidad de SLM para adquirir habilidades que anteriormente se generaban a una escala mucho mayor.

Este paradigma encaja bajo el enfoque profesor-alumno, donde el gran modelo es (el profesor).
Crear demostraciones para que el SLM (estudiante) aprenda de ellas. En este trabajo, ampliamos el paradigma profesor-alumno a entornos de aprendizaje recurrente de la siguiente manera.

  • Entrenamiento de demostraciónEn esta fase, capacitamos al SLM utilizando AgentInstruct para demostrar los problemas y sus soluciones.
  • Práctica y retroalimentación. Dejamos que SLM se encargue de resolver el problema por sí solo. Para cada problema, permitimos que SLM genere múltiples soluciones. Luego utilizamos el modelo docente para brindar comentarios sobre las soluciones SLM. Si SLM no puede resolver el problema correctamente, incluso después de muchos intentos, utilizamos la solución proporcionada por el profesor.
  • Mejora iterativa. Utilizamos los comentarios del profesor para generar datos de preferencias que muestren soluciones SLM buenas y malas para el mismo problema, y ​​luego entrenamos el SLM.

Los pasos de práctica, retroalimentación y mejora iterativa se pueden repetir varias veces.

Conclusión

Nuestros hallazgos sugieren que los modelos pequeños son valiosos en entornos especializados donde pueden igualar el rendimiento de modelos mucho más grandes, pero con un alcance limitado. Al entrenar Orca-Math en una pequeña base de datos de 200.000 problemas matemáticos, logramos niveles de rendimiento que rivalizan o superan los de modelos mucho más grandes.

El tamaño relativamente pequeño del conjunto de datos también muestra el potencial de utilizar flujos de múltiples agentes para modelar el proceso de generación de datos y retroalimentación. El pequeño tamaño de los datos afecta el valor del entrenamiento y resalta que los datos de entrenamiento con señales de entrenamiento más ricas pueden mejorar la eficiencia del proceso de entrenamiento. Nuestros hallazgos también resaltan el potencial de aprendizaje y mejora continuos de los modelos de lenguaje, donde el modelo se mejora periódicamente a medida que recibe más comentarios de una persona u otro modelo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *