La lucha por el futuro de Inteligencia Artificial que trasciende fronteras está en marcha y ahora incluye a Mistral, un emprendimiento francés. Mistral lanzó Mistral-Large y este, medido por el número de parámetros utilizados, es más pequeño que gpt-4, pero compite con gpt-4 en su capacidad de razonamiento.
Especial de Laszlo Beke
Asimismo anunció un competidor de Chatgpt, con el nombre de Le Chat, y un acuerdo con Microsoft. Microsoft tendrá una pequeña inversion en Mistral y los modelos de Mistral estarán disponibles a través de Azure. Mistral es una prueba que el sector de IA es ahora más abierto y menos estadounidense. Si Mistral puede demostrar que es capaz de competir con Open AI, también será un indicador que el tamaño no lo es todo. En otro frente, Anthropic (con personal anteriormente de OpenAI) lanzó su nuevo chatbot y también reportó inversion importante de Amazon y de Google.
El crecimiento de Mistral ha sido vertiginoso, fue fundada hace menos de un año y tiene 25 empleados. Sin embargo, su Modelo de Grandes Lenguajes (llm) está liderando el grupo de los modelos de fuente-abierta. Ha logrado inversiones importantes (US$531 millones) combinando hábilmente ingredientes técnicos de IA – talento, data y poder de computación – con política:
Talento – Mistral es un matrimonio ideal entre la educación de ingeniería francesa y las gigantes tecnológicas estadounidenses. Tres de los principales fundadores y cerebros técnicos son producto de las instituciones técnicas élite de Francia. Al igual que muchos de los más importantes científicos de IA, ellos han trabajado en los laboratorios de investigación de Google y Meta, en este caso en sus instalaciones en Paris. Esto los coloca entre las 100 personas que realmente saben como entrenar modelos de tecnología de punta.
Data – Los fundadores parecen ser versados en la organización de la data – el segundo ingrediente para el éxito en IA. La data es su ventaja competitive y por ello no han precisado como lo hacen. Se presume que entre otras cosas usan el método conocido como Direct Preference Optimisation (dpo), el cual se basa en la satisfacción de un truco matemático. Este ahorra un paso en el entrenamiento de la data. El modelo de Mistral es mucho más pequeño y con muchos menos parámetros. Eso permite a los clientes procesarlos en sus propios computadores, en lugar de requerir enormes centros de datos, como ocurre con la mayoría de los modelos propietarios.
Poder de Computación – El foco de Mistral en la curación de la data y les permite usar este componente en una manera más eficiente que la de sus competidores. Apaarentemente el costo del entrenamiento de Mistral fue mucho menor que los US$100 millones que debió invertir OpenAI.
Política y la ventaja de no ser el primero – En términos técnicos, emprendedores como Mistral tienen la ventaja de no ser los primerizos, beneficiándose así de todo el trabajo que OpenAI y otros han hecho. Esto es importante en el caso de Mistral y se encuentra complementado con el apoyo politico. Este es conveniente, por cuanto muchos paises consideran que tener llm’s (Modelos de Grandes Lenguajes) propios provee ventajas económicas y estratégicas. Otro de los cofundadores de Mistral es un ex-Ministro Digital de Francia, con una línea directa al Presidente de Francia. El año pasado en la discusión del borrador del Acto de IA en Europa, existía la amenaza de la obligación de la divulgación de la estrategia de data de Mistral, este fundador coordinó con el apoyo del Presidente de Francia, un esfuerzo franco-germano para oponerse a dichas disposiciones.
Los ingresos
La pregunta que queda pendiente es si Mistral, que hasta ahora no ha generado ingresos significativos, puede transformar su atractiva combinación tecno-política en ventas y utilidades. La empresa, está apostando a que muchas empresas, particularrmente en Europa, quieren tener más control sobre los llm de lo que OpenAI está dispuesto a conceder, y no quieren estar cerrados o bloqueaados dentro de la plataforma tecnológica estadounidense. Mistral está presumiendo que esos clientes estarían dispuestos a pagarle a Mistral para que mantenga y opere sus modelos.
Posibles dificultades
Una de las posibles preocupaciones para los clientes potenciales es como el mundo regulará a los modelos de fuente-abierta. El debate sobre si estos pudieran habilitar a los malos actores en la construcción de cíber-armas se ha calmado. La discusión entre los formuladores de políticas se está moviendo del área de riesgos al de recompensas: mayor transparencia, más innovación y menor dependencia en las poderosas empresas que han controlado la tecnología. Hasta el presente los reguladores de América y Europa han tolerado los llm de fuente abierta. Pero se podría complicar en el lado politico para Mistral, si los modelos se vuelven mucho más inteligentes o comienzan a generar desinformación en este importante año electoral global.
Por otro lado, un cabildeo político exitoso puede llevar a mayor competencia de fuente-abierta. El 20 de Febrero 2024, una empresa finlandesa (Silo ai) presentó un nuevo llm que es todavía más abierto que Mistral, proveyendo información sobre la data e identificando como fue entrenado y el software que hizo dicho trabajo. Una nueva version, prometida para los próximos meses será tan buena en la mayoría de los idiomas europeos, como hoy lo es en finlandés e inglés. Todavía más importante, es que no está claro si el tamaño seguirá siendo relevante para la IA Generativa. Una prueba de ello se verá cuando OpenAi lance su nuevo modelo gpt-5. Si supera a Mistral, la creatividad y la velocidad perderán peso. Hasta ese momento la historia de Mistral continuará resonando.
Se hace referencia a Meet the French startup hoping to take on OpenAI y How to train your large language model. También aparece en mi Portal https://tinyurl.com/8xr58v3f. La imagen es cortesía de Bing Image Creator.