VentureBeat presenta: AI Unleashed: un evento ejecutivo exclusivo para líderes de datos empresariales. Establezca contactos y aprenda con pares de la industria. Aprende más
En un nuevo artículo, investigadores de varias universidades y Eleuther AI, una empresa conocida por sus modelos de código abierto, presentan LLEMMA, un modelo de lenguaje grande (LLM) de código abierto diseñado específicamente para resolver problemas matemáticos.
LLEMMA supera en rendimiento a otros modelos de lenguaje líderes centrados en matemáticas, incluido Minerva de Google, y ofrece una plataforma sólida para futuras investigaciones.
Aunque LLEMMA no es un solucionador matemático perfecto, es un paso importante hacia el desarrollo de modelos de lenguaje grandes especializados y podría impulsar la investigación de la IA en nuevas direcciones.
Modelos matemáticos de última generación
LLEMMA se basa en Code Llama, una adaptación del modelo Llama 2 de código abierto de Meta en conjuntos de datos específicos de código. Los investigadores desarrollaron dos versiones del modelo, una con 7 mil millones de parámetros y otra con 34 mil millones. Los modelos se perfeccionaron aún más en Proof-Pile-2, una base de datos generada por investigadores compuesta por una combinación de artículos científicos, datos web matemáticos y código matemático.
Un evento
IA desatada
Una velada exclusiva, a la que solo se puede acceder por invitación, de conocimientos y networking para líderes empresariales de alto nivel que supervisan las pilas de datos y las estrategias.
Aprende más
“LLEMMA está previamente capacitado en una variedad de distribuciones de datos relacionados con las matemáticas y no está diseñado para una tarea en particular. Por lo tanto, esperamos que LLEMMA pueda adaptarse a muchas otras tareas mediante el refinamiento de tareas específicas y señales de múltiples disparos”, escriben los investigadores.
En sus experimentos, los investigadores descubrieron que LLEMMA superaba a todos los modelos abiertos conocidos en puntos de referencia matemáticos. «Concluimos que el entrenamiento previo continuo en Proof-Pile-2 es eficaz para mejorar la capacidad de resolución de problemas matemáticos del modelo previamente entrenado», escriben.
Además, LLEMMA exhibe la capacidad de utilizar herramientas y demostrar teoremas formales sin refinamientos adicionales. Puede utilizar herramientas computacionales, como el intérprete de Python y los demostradores de teoremas formales, para resolver problemas matemáticos. El uso de herramientas puede fortalecer aún más las capacidades de resolución de problemas de un modelo al proporcionar una fuente externa de conocimiento para verificar y corregir sus respuestas.
Si bien se han adaptado varios modelos de lenguaje importantes para las matemáticas, destaca Minerva de Google, basado en su modelo PaLM. Sin embargo, no es de código abierto.
Por otro lado, LLEMMA supera a Minerva en una «base de parámetros iguales». Esto significa que LLEMMA-7B es superior a Minerva-8B y LLEMMA-34B es casi igual a Minerva-62B.
Los investigadores han publicado todos sus activos. Esto incluye los modelos de parámetros de 7 mil millones y 34 mil millones, la base de datos Proof-Pile-2 y el código para replicar sus experimentos. Proof-Pile-2 incluye AlgebraicStack, una nueva base de datos de 11 mil millones de símbolos de código relacionados específicamente con las matemáticas.
Según los investigadores, LLEMMA es el primer modelo de código abierto que iguala el rendimiento de los modelos modernos de código cerrado. Esto permite a otros investigadores aprovecharlo y ampliar aún más el trabajo.
«Esperamos que LLEMMA y Proof-Pile-2 proporcionen una base útil para trabajos futuros destinados a comprender la generalización de los modelos de lenguaje y la composición de datos, explorar los límites de los modelos de lenguaje de dominios específicos, utilizar modelos de lenguaje como herramientas para matemáticos y mejorar las matemáticas. las capacidades de los modelos lingüísticos», escriben los investigadores.
El impacto más amplio de los LLM basados en matemáticas
LLEMMA es parte de una iniciativa más amplia para desarrollar LLM que se especialicen en un campo específico, en lugar de un modelo genérico que pueda realizar múltiples tareas. El modelo LLEMMA muestra que con datos mejorados y conjuntos de datos más grandes, los modelos más pequeños aún pueden producir resultados significativos. Por ejemplo, LLEMMA-7B supera al código Llama-34B en casi todos los conjuntos de datos de razonamiento matemático.
Los investigadores señalan que «un modelo de lenguaje de dominio específico puede ofrecer capacidades superiores para un costo computacional determinado o un costo computacional más bajo para un nivel determinado de capacidad». Esto es consistente con otras investigaciones que muestran que los modelos pequeños pueden continuar mejorando cuando se entrenan en una base de datos muy grande de ejemplos de alta calidad.
La idoneidad de los LLM para la resolución de problemas matemáticos ha sido un tema de amplio debate. Medir la capacidad de razonamiento de los LLM es muy difícil. Los modelos a menudo obtienen puntuaciones altas en los puntos de referencia matemáticos debido a la «contaminación de datos», donde se incluyen ejemplos de pruebas en los datos de entrenamiento, lo que esencialmente significa que el modelo ha memorizado las respuestas. También hay estudios que muestran que el LLM puede proporcionar diferentes respuestas a la misma pregunta cuando está redactada de maneras ligeramente diferentes. Y algunos académicos sostienen que los LLM son fundamentalmente inadecuados para las matemáticas debido a su naturaleza estocástica.
Los desarrolladores de LLEMMA han tomado medidas cuidadosas para verificar si los ejemplos de referencia están incluidos en los datos de entrenamiento. Aunque encontraron patrones similares en los datos de entrenamiento y prueba, concluyeron que «una ligera superposición entre el patrón de prueba y el documento de entrenamiento no significa que el modelo produjo la respuesta memorizada correcta».
Los avances en el desarrollo de LLM que puedan resolver problemas matemáticos de manera confiable pueden mejorar las capacidades de razonamiento y planificación de los modelos lingüísticos. Los logros de LLEMMA, especialmente considerando el lanzamiento de modelos y códigos, también pueden beneficiar a otros campos al especializar los LLM en diferentes dominios.
Los investigadores sugieren que «la resolución de problemas matemáticos requiere una coincidencia de patrones con conocimientos previos especializados, lo que sirve como un entorno ideal para la adaptación del dominio». Incluso si los LLM no se convierten en la herramienta definitiva para la resolución de problemas matemáticos, pueden proporcionar una base para otros tipos de modelos e investigaciones de IA.
Los investigadores también creen que «los modelos de lenguaje capaces de un razonamiento matemático sólido están en la fase inicial de una serie de temas de investigación como el modelado de recompensas, el aprendizaje del razonamiento y el razonamiento algorítmico». Será interesante ver qué tipo de nuevas investigaciones puede inspirar LLEMMA.
La misión de VentureBeat debería ser una plaza digital para que los tomadores de decisiones técnicas adquieran conocimientos para transformar la tecnología empresarial y la ejecución de transacciones. Descubra nuestras sesiones informativas.