Un equipo de investigadores de Japón ha presentado Fugaku-LLM, un gran modelo lingüístico con capacidad mejorada para el idioma japonés, utilizando el superordenador Fugaku de RIKEN. El equipo está dirigido por el profesor Rio Yokota, del Instituto Tecnológico de Tokio, el profesor asociado Keisuke Sakaguchi, de la Universidad de Tohoku, Koichi Shirahata, de Fujitsu Limited, el jefe de equipo Mohamed Wahib, de RIKEN, el profesor asociado Koji Nishiguchi, de la Universidad de Nagoya, Shota Sasaki, de CyberAgent, Inc, y Noriyuki Kojima, de Kotoba Technologies Inc.
Para entrenar grandes modelos lingüísticos en Fugaku, los investigadores desarrollaron métodos de entrenamiento distribuido, incluida la portabilidad del marco de aprendizaje profundo Megatron-DeepSpeed a Fugaku con el fin de optimizar el rendimiento de Transformers en Fugaku. Aceleraron la biblioteca de multiplicación de matrices densas para Transformers y optimizaron el rendimiento de la comunicación para Fugaku combinando tres tipos de técnicas de paralelización y aceleraron la biblioteca de comunicación colectiva en la interconexión D de Tofu.
Fugaku-LLM tiene 13.000 millones de parámetros y es mayor que los modelos de 7.000 millones de parámetros que se han desarrollado ampliamente en Japón. Fugaku-LLM tiene capacidades japonesas mejoradas, con una puntuación media de 5,5 en el MT-Bench japonés, el rendimiento más alto entre los modelos abiertos que se entrenan utilizando datos originales producidos en Japón. En concreto, el rendimiento de referencia para tareas de humanidades y ciencias sociales alcanzó una puntuación notablemente alta de 9,18.
Fugaku-LLM se entrenó con datos japoneses propios recopilados por CyberAgent, junto con datos ingleses y de otros países. El código fuente de Fugaku-LLM está disponible en GitHub y el modelo en Hugging Face. Fugaku-LLM puede utilizarse con fines de investigación y comerciales siempre que los usuarios respeten la licencia.
En el futuro, a medida que más investigadores e ingenieros participen en la mejora de los modelos y sus aplicaciones, se mejorará la eficiencia del entrenamiento, lo que conducirá a aplicaciones empresariales y de investigación innovadoras de próxima generación, como la vinculación de la simulación científica y la IA generativa, y la simulación social de comunidades virtuales con miles de IA.
Antecedentes
En los últimos años, el desarrollo de grandes modelos lingüísticos (LLM) ha sido muy activo, especialmente en Estados Unidos. En particular, la rápida difusión de ChatGPT, desarrollado por OpenAI, ha tenido un profundo impacto en la investigación y el desarrollo, los sistemas económicos y la seguridad nacional. Otros países, además de Estados Unidos, también están invirtiendo enormes recursos humanos y computacionales para desarrollar LLM en sus propios países. Japón también necesita asegurarse recursos computacionales para la investigación de la IA y no quedarse atrás en esta carrera mundial. Hay grandes expectativas puestas en Fugaku, el sistema de supercomputación insignia de Japón, y es necesario mejorar el entorno computacional para el entrenamiento distribuido a gran escala en Fugaku para cumplir estas expectativas.
Por ello, el Instituto Tecnológico de Tokio, la Universidad de Tohoku, Fujitsu, RIKEN, la Universidad de Nagoya, CyberAgent y Kotoba Technologies han iniciado un proyecto conjunto de investigación sobre el desarrollo de grandes modelos lingüísticos.
Papel de cada institución/empresa
Instituto Tecnológico de Tokio: Supervisión general, paralelización y aceleración de la comunicación de grandes modelos lingüísticos (optimización del rendimiento de la comunicación combinando tres tipos de paralelización, aceleración de la comunicación colectiva en la interconexión D de Tofu).
Universidad de Tohoku: Recogida de datos de entrenamiento y selección de modelos
Fujitsu: Aceleración de la computación y la comunicación (aceleración de la comunicación colectiva en Tofu interconnect D, optimización del rendimiento de la paralelización de canalizaciones) e implementación del preentrenamiento y el ajuste fino tras el entrenamiento.
RIKEN: Paralelización distribuida y aceleración de la comunicación de modelos lingüísticos a gran escala (aceleración de la comunicación colectiva en Tofu interconnect D).
Universidad de Nagoya: Estudio sobre métodos de aplicación de Fugaku-LLM a la IA generativa 3D
CyberAgent: Suministro de datos de entrenamiento
Tecnologías Kotoba: Adaptación del marco de aprendizaje profundo a Fugaku
Resultados de la investigación
1. Mejora significativa del rendimiento computacional del entrenamiento de grandes modelos lingüísticos en el superordenador Fugaku.
Las GPU son el hardware más utilizado para entrenar grandes modelos lingüísticos. Sin embargo, hay una escasez mundial de GPU debido a la gran inversión de muchos países para entrenar LLM. En estas circunstancias, es importante demostrar que se pueden entrenar grandes modelos lingüísticos con Fugaku, que utiliza CPU en lugar de GPU. Las CPU utilizadas en Fugaku son CPU japonesas fabricadas por Fujitsu, y desempeñan un papel importante en términos de revitalización de la tecnología japonesa de semiconductores.
Al extraer todo el potencial de Fugaku, este estudio logró aumentar la velocidad de cálculo de la multiplicación de matrices en un factor de 6, y la velocidad de comunicación en un factor de 3. Para maximizar el rendimiento del entrenamiento distribuido en Fugaku, el marco de aprendizaje profundo Megatron-DeepSpeed se portó a Fugaku, y la biblioteca de multiplicación de matrices densas se aceleró para Transformer. Para la aceleración de la comunicación, los investigadores optimizaron el rendimiento de la comunicación para Fugaku mediante la combinación de tres tipos de técnicas de paralelización y aceleraron la comunicación colectiva en la interconexión D de Tofu. El conocimiento adquirido a partir de estos esfuerzos se puede utilizar en el diseño de la infraestructura informática de próxima generación después de Fugaku y mejorará en gran medida la ventaja futura de Japón en el campo de la IA.
2. Un gran modelo lingüístico fácil de usar, abierto y seguro con 13.000 millones de parámetros
En 2023, las empresas japonesas han desarrollado muchos modelos lingüísticos de gran tamaño, pero la mayoría de ellos tienen menos de 7.000 millones de parámetros. Dado que el rendimiento de los modelos lingüísticos a gran escala suele mejorar a medida que aumenta el número de parámetros, es probable que el modelo de 13.000 millones de parámetros desarrollado por el equipo de investigación sea más potente que otros modelos japoneses. Aunque fuera de Japón se han desarrollado modelos de mayor tamaño, los grandes modelos lingüísticos también requieren grandes recursos computacionales, lo que dificulta el uso de modelos con demasiados parámetros. Fugaku-LLM es a la vez de alto rendimiento y equilibrado.
Además, la mayoría de los modelos desarrollados por empresas japonesas emplean el aprendizaje continuo, en el que los modelos abiertos desarrollados fuera de Japón se entrenan continuamente con datos japoneses. En cambio, Fugaku-LLM se entrena desde cero utilizando los propios datos del equipo, por lo que se puede entender todo el proceso de aprendizaje, lo que es superior en términos de transparencia y seguridad.
Fugaku-LLM se entrenó con 380.000 millones de tokens utilizando 13.824 nodos de Fugaku, y alrededor del 60% de los datos de entrenamiento eran japoneses, combinados con inglés, matemáticas y código. En comparación con los modelos que se entrenan continuamente en japonés, Fugaku-LLM aprendió gran parte de su información en japonés. Fugaku-LLM es el mejor modelo entre los modelos abiertos producidos en Japón y entrenados con datos originales. En concreto, se confirmó que el modelo muestra una alta puntuación de referencia de 9,18 en las tareas de humanidades y ciencias sociales. Se espera que el modelo sea capaz de realizar diálogos naturales basados en el keigo (habla honorífica) y otras características de la lengua japonesa.
Desarrollo futuro
Los resultados de esta investigación se están haciendo públicos a través de GitHub y Hugging Face para que otros investigadores e ingenieros puedan utilizarlos para seguir desarrollando grandes modelos lingüísticos. Fugaku-LLM puede utilizarse con fines comerciales y de investigación siempre que los usuarios respeten la licencia. Fugaku-LLM también se ofrecerá a los usuarios a través del Fujitsu Research Portal a partir del 10 de mayo de 2024.
En el futuro, a medida que más investigadores e ingenieros participen en la mejora de los modelos y sus aplicaciones, se mejorará la eficacia de la formación, lo que dará lugar a aplicaciones empresariales y de investigación innovadoras de nueva generación, como la vinculación de la simulación científica y la IA generativa, y la simulación social de comunidades virtuales con miles de IA.
Agradecimientos
Esta investigación ha contado con el apoyo de la propuesta «Desarrollo de entrenamiento paralelo distribuido para grandes modelos lingüísticos utilizando Fugaku» (número de propuesta: hp230254).