Orai ha desarrollado un chatbot en euskera capaz de ayudar en el día a día a empresas e instituciones. Kimu, se llama. La ligereza del ... modelo permite su instalación en servidores y ordenadores de empresas e instituciones, lo que posibilita preservar la privacidad y confidencialidad de los datos. El modelo es capaz de comprender y ejecutar las tareas solicitadas por el usuario en euskera utilizando un lenguaje natural.

«Puede utilizarse en tareas diversas como, por ejemplo, elaborar traducciones y resúmenes, responder preguntas sobre documentos, extraer información, corregir o adecuar textos…», ha explicado Xabier Saralegi, responsable de Tecnologías NLP de Orai. No obstante, en función de las necesidades de empresas e instituciones, existe la posibilidad de especializar el modelo para realizar determinadas tareas y de ese modo mejorar la calidad de los resultados.

Por otra parte, si bien Kimu se ha creado para el euskera, ofrece buenos resultados también en otras lenguas: castellano, inglés, italiano...

Una de las principales ventajas de Kimu es su reducido tamaño: cuenta con 9.000 millones de parámetros y se encuadra en la categoría de pequeños modelos de lenguaje (SML Small Language Models) dentro de los LLM. Los pequeños modelos de lenguaje libres ofrecen resultados competitivos en las grandes lenguas (castellano, inglés, etc.), pero no en las lenguas con recursos limitados, como es el caso del euskera. Y las lenguas pequeñas no tienen recursos suficientes para crear ese tipo de modelos desde cero. De hecho, los investigadores de Orai investigan, entre otras cosas, cómo integrar las competencias del euskera en pequeños modelos de lenguaje a través de la transferencia lingüística.

Frente a ChatGPT, DeepSeek, Claude y otros LLM, los modelos SLM, aunque de menor tamaño, ofrecen una calidad competitiva, sobre todo cuando se adaptan para desempeñar determinadas tareas, y presentan, en general, algunas ventajas notables: son más ligeros y rápidos, requieren menos recursos y consumen menos energía.

Para conseguir grandes modelos de lenguaje, es fundamental manejar cantidades inmensas de datos y texto, algo que es difícil de obtener en lenguas de recursos limitados. El equipo investigador de Orai analiza diversas estrategias para conseguir soluciones válidas para el euskera, basándose para ello en modelos libres que ofrecen buenos resultados en otras lenguas.

Un ejemplo de dicho trabajo es Kimu: «Hemos combinado un modelo fundacional que hemos adaptado al euskera con un modelo instruido que no está adaptado al euskera», ha explicado Ander Corral, investigador de Orai. Los modelos fundacionales se utilizan como base de la inteligencia artificial generativa y los modelos instruidos son capaces de comprender y ejecutar tareas. De ese modo, el equipo de Orai ha creado un modelo instruido capaz de seguir las instrucciones en euskera. El método utilizado solo requiere un corpus de textos para realizar la adaptación lingüística. Al modelo fundacional que no sabe bien euskera se le enseña euskera utilizando un corpus. «En la experimentación hemos utilizado el corpus Zelai Haundi, creado por Orai, un corpus de 500 millones de palabras, que alberga únicamente contenidos de licencia libre», han explicado los investigadores de Orai.

El equipo de Orai, además de con el euskera, ha experimentado también con el suajili y el galés «para comprobar si nuestro método sirve también para otras lenguas de recursos limitados. Y hemos visto que nuestro método ha conseguido mejorar notablemente los resultados de modelos base ya existentes», añaden.