La Inteligencia Artificial (IA) ha experimentado avances significativos en los últimos años, con el desarrollo de modelos de lenguaje capaces de generar texto coherente y mantener conversaciones. Sin embargo, no todos los modelos son iguales. Un reciente estudio realizado por Arthur AI, una startup de IA, comparó el desempeño de los principales modelos de IA en el mercado actual para determinar cuáles son los mejores y los peores.
Resultados clave del estudio de Arthur AI
El estudio analizó modelos de Meta, OpenAI, Cohere y Anthropic. Específicamente, evaluó Llama 2 de Meta, Cohere, GPT-4 de OpenAI y Claude 2 de Anthropic.
Los resultados clave fueron:
- Cohere tuvo el peor desempeño general, con altas tasas de errores o «alucinaciones» en sus respuestas.
- Llama 2 de Meta tuvo más alucinaciones que GPT-4 y Claude 2.
- GPT-4 de OpenAI, que también alimenta ChatGPT, fue el modelo con mejor rendimiento. Tuvo menos alucinaciones que la versión anterior GPT-3.5.
- Claude 2 de Anthropic también mostró un buen desempeño con bajas tasas de alucinación.
¿Cómo evaluaron el desempeño?
Los investigadores probaron los modelos con conjuntos de datos desafiantes sobre matemáticas, presidentes de EE.UU. y líderes de Marruecos.
Luego analizaron las respuestas para ver la precisión general y las alucinaciones persistentes.
Según el fundador de Arthur AI, esta metodología permite evaluar cómo se comportan los modelos en tareas del mundo real, más allá de simples pruebas de clasificación.
Implicaciones para el futuro desarrollo de IA
Este estudio resalta la necesidad de probar rigurosamente los modelos de IA antes de implementarlos.
También muestra que modelos más nuevos como GPT-4 muestran mejoras con respecto a versiones anteriores, reduciendo alucinaciones.
Los expertos dicen que los resultados pueden guiar a las empresas para seleccionar el modelo adecuado según sus necesidades. Por ejemplo, si se requiere precisión, GPT-4 podría ser la mejor opción actualmente.
Reacciones de las empresas de IA
La mayoría de empresas destacaron la importancia de seguir mejorando sus modelos.
OpenAI dijo que los resultados reflejan avances en GPT-4. Anthropic también resaltó el buen desempeño de Claude 2.
Cohere objetó que el estudio no probó su tecnología de recuperación aumentada, que mejora la precisión.
En general, las empresas concuerdan en la importancia de reducir sesgos y continuar innovando en la IA responsable.
Conclusión
Este estudio de Arthur AI ofrece una evaluación valiosa de los principales modelos de IA disponibles actualmente.
Los resultados muestran ventajas y desafíos específicos para cada sistema. GPT-4 lidera en precisión, mientras que otros modelos deben mejorar sus alucinaciones.
Se espera que este tipo de análisis comparativo guíe el futuro desarrollo de la IA hacia sistemas más seguros y confiables.