Le R1 profonde de la Chine et l’Openai O1 des États-Unis sont tous deux des modèles de raisonnement. Au lieu de répondre immédiatement aux questions, ils prennent le temps de réfléchir à l’invite en utilisant leur processus de raisonnement, conduisant à des réponses meilleures et plus précises. Ces modèles sont généralement bons pour gérer des questions complexes liées au codage, aux mathématiques, aux sciences ou tout ce qui nécessite de sérieuses compétences de raisonnement.
Jusqu’à présent, le modèle O1 d’Openai a dirigé l’industrie en capacités de raisonnement. Cependant, il s’agit d’un modèle d’IA à source fermée accessible uniquement via un abonnement payant de 20 $. Google travaille également sur son propre modèle de raisonnement appelé 2.0 Flash Thinking, mais il est toujours en version bêta. Bien que prometteur, il n’a pas vraiment atteint le niveau d’O1 et n’est disponible que via Google AI Studio. Nous le mettrons à l’épreuve lorsqu’il sera disponible.
De l’autre côté de la carte, Deepseek de Chine a publié son modèle R1 cette semaine, qui est bien en avance sur le modèle O1 d’Openai. C’est devenu le discours de la ville depuis. Contrairement au modèle O1 d’Openai, R1 est open-source, libre à utiliser et a atteint des repères O1 à Just 3% du coût. Pas surprenant car la Chine a toujours été bonne pour faire les choses de manière très rentable. Même le développeur Les API sont 90% à 95% moins chères par rapport au modèle O1.
Mais quelle est la qualité du modèle R1 AI et peut-il vraiment battre le modèle O1 par Chatgpt? Découvrons en utilisant quelques invites.
Deepseek R1 vs Openai O1
Pour tester les affirmations, nous avons évalué à la fois le modèle O1 d’OpenAI et le modèle R1 de Deepseek avec diverses invites nécessitant de solides compétences de raisonnement pour voir si Deepseek a vraiment livré des performances de niveau O1 ou l’a même dépassé.
1. Raisonnement basé sur le puzzle
J’ai commencé la comparaison avec une question classique de style puzzle qui n’a même pas de réponse de travail.
Sur une île, chaque habitant est soit un chevalier, qui dit toujours la vérité, soit un knave, qui ment toujours. Vous rencontrez trois habitants: A, B et C.
A dit: «B est un knave.»
B dit: «C est un chevalier.»
C dit: «A est un chevalier.»
Qui est quoi?
Voyons donc quel modèle peut comprendre qu’il n’a pas de réponse. Pendant que le Le modèle O1 n’a pris que 16 secondes Penser, Deepseek a pris 120 secondes. Cependant, les deux modèles sont arrivés à la bonne conclusion, affirmant qu’il n’y a aucun moyen de comprendre qui est un chevalier et qui est un Knave. J’ai trouvé l’explication de Deepseek beaucoup plus facile à comprendre que le récit déroutant d’O1.
La meilleure partie de Deepseek est que vous pouvez Voir son processus de raisonnement completce qui est assez convaincant. Il raisonne que comme nous les humains faisons et essaie de résoudre les problèmes de différentes manières plusieurs fois. Le processus est écrit du point de vue de Deepseek, ce qui se traduit par une expérience utilisateur bien meilleure et fascinante. Par exemple, voici une partie du texte de Le processus de réflexion de Deepseek:
Attendez une seconde, donc les 8 possibilités mènent à des contradictions? Cela ne peut pas l’être. Il doit y avoir une erreur ici. Peut-être que j’ai gâché certains des cas.
Permettez-moi de vérifier à nouveau le cas 3: un chevalier, b knave, c chevalier. A dit que B est un Knave, ce qui est vrai. B dit que C est un chevalier, mais comme B est un knave, c’est un mensonge, donc C est en fait un Knave. Mais dans ce cas, C est censé être un chevalier. Donc contradiction. Le cas 3 n’est donc pas valide.
Cas 5: Un Knave, B Knight, C Knight. Le mensonge de A fait de B un chevalier. B dit que C est un chevalier, ce qui est vrai. Alors C dit que A est un chevalier, qui est faux. Mais C est censé être un chevalier. Contradiction.
Cas 7: Un Knave, B Knave, C Knight. A est un Knave, donc B est un chevalier (puisque la déclaration de A est fausse). Mais B est censé être un knave. Contradiction.
Attendez, peut-être qu’il n’y a pas de solution? Mais le problème indique que chaque habitant est soit un chevalier, soit un knave, il doit donc y avoir une solution. Peut-être que mon approche est erronée.
Alternativement, peut-être que le problème est conçu pour ne pas avoir de solution, mais cela semble peu probable. Permettez-moi d’essayer une autre approche.
Intéressant, non?
Verdict: Les deux modèles d’IA ont bien obtenu la réponse. Bien que l’O1 de Chatgpt soit plus rapide, le R1 de Deepseek est plus complet et fournit une explication plus simple que les humains peuvent comprendre et digérer plus facilement.
2. Problème mathématique
Ensuite, j’ai une question dure liée aux mathématiques qui peut prendre au moins 30 à 50 étapes pour trouver la réponse.
Un vaisseau spatial se déplace de la Terre à Proxima Centauri, à 4,24 années-lumière, à une vitesse constante 𝑣. Compte tenu des effets de dilatation du temps, calculez:
1. Le temps nécessaire pour le voyage mesuré par les observateurs sur Terre.
2. Le temps ressenti par les astronautes à bord. Supposons 𝑣 = 0,8𝑐, où 𝑐 est la vitesse de la lumière.
Les deux modèles ont correctement prédit les réponses. Cependant, Deepseek a fourni une réponse exactementionnant 3,18 ans, alors que Chatgpt l’a arrondi à 3,2 ans. Mais O1 a été beaucoup plus rapide, pensant pendant seulement 5 secondes, tandis que Deepseek a pris 53 secondes pour arriver à la réponse.
Verdict: Les deux modèles ont à nouveau fourni la bonne réponse, cependant, le modèle O1 est beaucoup plus rapide. Sur l’autre, Deepseek partage l’intégralité du calcul et la réponse exacte qui peut faire toute la différence en ce qui concerne les mathématiques, les sciences et l’espace profond.
3. Résoudre un puzzle Sudoku
Qui n’aime pas un puzzle Sudoku? Pour la troisième question, j’ai téléchargé un puzzle Sudoku en tant qu’image du Sandret R / Sudoku aux deux modèles d’IA leur demandant de le résoudre.
La résolution d’un puzzle Sudoku semble trop pour tout modèle de raisonnement d’IA. Cependant, si les modèles ont des capacités d’exécution de code, ils peuvent générer ou utiliser un code existant dans leur base de données et l’exécuter pour résoudre le puzzle. Par exemple, Gemini 1.5 Pro peut résoudre les puzzles sudoku. Cependant, les modèles Chatgpt O1 et Deepseek R1 ont essayé de résoudre le Sudoku avec un simplement raisonnement, et voici les résultats.
Deepseek a raisonné et a pris 68 secondes avant de dire le La grille n’était pas parfaitemême si c’était le cas. J’ai téléchargé deux autres puzzles Sudoku, et les résultats étaient les mêmes. Cela est probablement dû au fait que les capacités de vision de Deepseek sont inférieures. Bien qu’il puisse raisonner par des problèmes, il a du mal à interpréter les images téléchargées.
Openai, en revanche, a pensé pendant plus de 5 minutes et a fourni un mauvaise réponse. J’ai téléchargé deux autres puzzles Sudoku comme sur Deepseek. Cependant, une fois, il a réussi à donner la bonne réponse en 5 secondes, indiquant que le La solution était déjà dans ses données de formation.
Au moins, le modèle O1 a pu lire les images et les fichiers téléchargés mieux que Deepseek R1, cependant, Les deux modèles ne pouvaient résoudre aucun puzzle Sudoku correctement.
Enfin, je suis entré dans le puzzle Sudoku au format texte, sans images. Openai a de nouveau trouvé la solution disponible dans ses données de formation, tandis que Deepseek a suivi le processus de raisonnement prenant 280 secondes et a de nouveau obtenu la mauvaise réponse. Nous pouvons donc conclure que ce ne sont pas seulement les capacités d’image, les puzzles sudoku ne sont pas solubles pour le lot actuel de modèles de raisonnement IA.
Verdict: Les deux modèles n’ont pas réussi à répondre à une réponse.
Lisez également:
4. Créer un organigramme
J’ai demandé aux deux modèles de raisonnement d’IA de créer un organigramme du fonctionnement de l’opérateur de l’Openai. Cela peut être un problème pour le modèle O1 car Impossible d’accéder à Internet Et l’opérateur est un développement récent non disponible dans ses données de formation. Cependant, Le modèle de raisonnement de Deepseek peut accéder à Internet Voyons donc ce qu’il peut faire.
Créez un organigramme du fonctionnement du modèle d’opérateur d’OpenAI.
Comme prévu, O1 a créé un organigramme générique du fonctionnement des modèles LLM d’Openai, pas du modèle d’opérateur. L’organigramme était également déroutant et Barebones. Deepseek a recherché en ligne des informations sur l’opérateur et a généré un organigramme comme demandé.
Verdict: Deepseek R1 gagne par un glissement de terrain.
5. Tâche de programmation
Pour compléter notre comparaison Deepseek R1 vs Openai O1, je suis allé pour une requête liée à la programmation cette fois.
Écrivez un programme Python qui détermine si une phrase donnée est positive, négative ou neutre. Pour chaque classification, expliquez pourquoi la phrase a été classée de cette façon. Gérer des phrases complexes, telles que celles atteints de sarcasme, de doubles négatifs ou de sentiments mixtes. Créez une interface graphique où les utilisateurs peuvent saisir une phrase et voir l’analyse des sentiments entraînent en temps réel.
C’est un simple défi qui peut être facilement complété avec les modules existants. Le modèle Openai O1 a utilisé le pipeline Transformers module et partagé Comment installer ce module sur mon PC avant d’exécuter le code. Tandis que le R1 de Deepseek fourni le code sans étapes et utilisé un module Vadersentiment que je n’avais jamais utilisé.
Après avoir installé les deux modules et exécuté le code, nous pourrions dire l’implémentation de Deepseek a suivi les instructions mieux. Par exemple, l’application créée par O1 n’a pas fourni d’explication appropriée pour sa classification du sentiment, tandis que L’application de Deepseek a donné des raisons claires. De plus, l’application de Deepseek travaillé en temps réelanalysant l’entrée pendant que vous avez tapé, alors que O1 requis en cliquant sur le bouton Analyser.
Cependant, aucun des deux modèles ne pouvait comprendre le sarcasme! Mais pour la plupart, ils ont fait le travail.
Verdict: Deepseek R1 pour suivre les instructions avec précision.
Verdict final: Chatgpt O1 vs Deepseek R1
Comme vous pouvez le voir, la seule question de Deepseek n’a pas répondu correctement était le puzzle Sudoku, auquel Openai a également échoué. À l’exception de cela, le modèle R1 de Deepseek a systématiquement fourni des explications plus faciles à comprendre et des réponses précises en suivant les instructions au T. tout en présentant de manière transparente son processus de raisonnement. En plus de cela, il est gratuit à utiliser et à la source ouverte, ce qui le rend accessible pour tous.
Nous avons également testé les deux modèles de raisonnement dans l’utilisation quotidienne, et Deepseek est à égalité avec le modèle O1 d’Openai, dépassant souvent les plans payants de ce dernier.
Les affirmations de Deepseek sont vraies et les utilisateurs peuvent s’appuyer en toute confiance en remplacement du modèle O1. Cependant, OpenAI a également un modèle O1 Pro qui coûte 200 $ et se prépare à lancer bientôt le modèle O3, de sorte que le récit peut changer assez tôt. Mais pour l’instant, compte tenu du prix, de la disponibilité open source et des performances, nous pouvons conclure: Deepseek R1> Openai O1.