La campagne 12 Days of OpenAI d’OpenAI s’est terminée aujourd’hui avec deux annonces majeures : ils ont dévoilé les modèles o3 et o3 Mini. Quelques jours seulement après la sortie complète du modèle o1, OpenAI s’est surpassé en annonçant un modèle de raisonnement encore plus performant. Voici tout ce que vous devez savoir.
1. Modèle de raisonnement o3
Les modèles d’IA de la série o d’OpenAI sont des modèles de raisonnement, ce qui signifie qu’ils prennent le temps de réfléchir étape par étape pour arriver à une conclusion. Cette approche permet une meilleure précision et permet à ces modèles de résoudre des problèmes complexes, notamment en programmation, en mathématiques et en sciences.
La version complète du modèle o1 a été publiée le premier jour de la campagne « 12 Days of OpenAI ». Cependant, alors que la concurrence s’intensifie avec des modèles comme Gemini 2.0 Flash Thinking, OpenAI a placé la barre plus haut avec le modèle o3, qui démontre des améliorations significatives par rapport au modèle o1 en termes de références et de précision.
Par exemple, dans les tâches de programmation, la précision du modèle est passée de 48,9 % à 71,7 %.
Le modèle o3 a également montré des progrès notables dans la résolution de problèmes mathématiques et de questions scientifiques de niveau doctorat.
De plus, il a permis une amélioration significative du Référence du Prix ARC (Corpus d’abstraction et de raisonnement pour l’intelligence générale artificielle). Fondamentalement, il teste la capacité d’une IA à résoudre des énigmes inconnues en utilisant la logique et la reconnaissance de formes. Au lieu de s’appuyer sur une formation ou des données antérieures, le benchmark se concentre sur la capacité de l’IA à penser et à généraliser pour résoudre de nouveaux problèmes, à l’instar du raisonnement humain.
Aujourd’hui, OpenAI a annoncé o3, son modèle de raisonnement de nouvelle génération. Nous avons travaillé avec OpenAI pour le tester sur ARC-AGI, et nous pensons que cela représente une avancée significative pour permettre à l’IA de s’adapter à de nouvelles tâches.
Il obtient un score de 75,7 % à l’évaluation semi-privée en mode faible calcul (pour 20 $ par tâche… pic.twitter.com/ESQ9CNVCEA
— François Chollet (@fchollet) 20 décembre 2024
2. o3 Mini : modèle économique
Parallèlement au modèle o3, OpenAI a également annoncé o3 Mini, un modèle conçu pour la vitesse et l’efficacité.
o3 Mini se concentre sur les tâches de raisonnement faible, moyen et élevé, offrant un équilibre entre capacité et rentabilité. Dans les tests de programmation, alors que l’o3 Mini (Low) a atteint la même note Elo que l’o1 Mini, l’o3 Mini (High) a surpassé même le modèle o1 complet.
Une tendance similaire a été observée dans les tests de mathématiques. Cependant, il convient de noter que même si l’o3 Mini (Low) a la même précision que l’o1 Mini, il y parvient avec une plus grande efficacité, réduisant la latence de ses sorties.
Lors de la démo en direct, o3 Mini a démontré sa polyvalence en écrivant des scripts évaluant ses propres performances.
Lire aussi :
Disponibilité
Les modèles o3 et o3 Mini ne sont pas encore disponibles au public. OpenAI donne la priorité à la sécurité, en accordant un accès anticipé exclusivement à des chercheurs sélectionnés pour des tests de sécurité externes. Les candidatures pour des tests de sécurité externes sont ouvertes aujourd’hui et vous pouvez postulez à partir d’ici.
Bien qu’aucune date de sortie spécifique n’ait été fournie, o3 Mini devrait être lancé peu de temps après la sortie d’o3.
La fin des 12 jours d’OpenAI
La campagne d’OpenAI se termine aujourd’hui et parmi toutes les annonces, Sora, son modèle de génération de texte en vidéo, se démarque comme la plus excitante. Les mises à jour de Canvas et Search sont également très pratiques et bénéfiques pour un large éventail d’utilisateurs.
Bien que les mises à jour des modèles de raisonnement, tels que o3 et o3 Mini, représentent une avancée significative dans les capacités de l’IA, elles peuvent être moins pertinentes pour les utilisateurs qui ne souhaitent pas résoudre des problèmes de niveau doctorat.