LLM : De la probabilité à l'orchestration
(Publié sur LinkedIn le 4 mars 2026 - English version)
Avertissement : Rédigé en mars 2026, cet article aborde le domaine de l'intelligence artificielle générative, un secteur en mutation constante. Les concepts et architectures présentés ici sont basés sur les connaissances et les évolutions à cette date et sont susceptibles d'évoluer rapidement. Ces réflexions sont à considérer comme un état des lieux temporaire, et non comme des conclusions définitives.
Si vous demandez à un modèle de langage le résultat de "deux plus deux", il ne compte pas. Il n'invoque pas de processeur arithmétique, mais un réseau de neurones qui prédit un motif de réponse structuré. Bien que cette réponse ait été affinée par un apprentissage par renforcement guidé par l'humain pour garantir sa justesse, l'opération reste, sous le capot, une inférence stochastique et non un calcul mathématique traditionnel.
C'est le socle fondamental sur lequel repose toute l'intelligence artificielle générative moderne : un modèle de langage (LLM) est, par essence, un moteur de prédiction de texte de type autorégressif. Pourtant, entre cet oracle probabiliste rudimentaire et les systèmes logiciels complexes déployés aujourd'hui en production sous le nom d'architectures multi-agents, il existe un gouffre technologique béant. Nous avons franchi ce fossé en un temps record, passant de l'ingénierie des réseaux de neurones isolés à la conception de systèmes distribués complexes.
Dans cet article, je propose de décortiquer cette évolution fulgurante.
Tokens et fenêtre de contexte
Pour bien comprendre la mécanique interne et les limitations physiques d'un LLM, il est indispensable de démystifier deux concepts fondateurs qui rythment le quotidien des développeurs d'IA : le token et la fenêtre de contexte.
Un ordinateur ne lit pas des mots, il manipule des nombres. Avant qu'une phrase n'atteigne le réseau de neurones, elle passe par une étape de tokenisation. Le texte brut est découpé en unités fondamentales appelées "tokens". Un token n'est pas forcément un mot entier : selon sa complexité, il peut s'agir d'un mot courant, d'une syllabe, d'un préfixe, ou même d'un simple caractère ou signe de ponctuation. La méthode la plus courante aujourd'hui est l'algorithme BPE (Byte-Pair Encoding). Son rôle est de compresser le texte intelligemment en fusionnant de manière itérative les suites de caractères qui apparaissent le plus souvent ensemble dans le langage humain. Ainsi, un mot rare pourra être décomposé en trois petits tokens, tandis qu'un mot très commun sera encodé en un seul token numérique, optimisant ainsi la charge de calcul.
La fenêtre de contexte, quant à elle, est la mémoire à court terme de l'intelligence artificielle pour une discussion donnée. C'est la limite stricte, mesurée en nombre de tokens, de tout ce que le modèle peut "considérer" simultanément pour générer le token suivant. Cette fenêtre englobe votre question initiale, l'historique de la conversation, et la réponse que le modèle est en train de rédiger. Demander à un LLM de lire un texte qui dépasse sa fenêtre de contexte, c'est comme demander à un humain de retenir de tête un numéro de téléphone de 10 000 chiffres : ce qui "dépasse" de la mémoire est tout simplement ignoré par l'architecture Transformer sous-jacente.
Oui, car avant d'entrer dans le réseau de neurones, cette suite de tokens va passer par une étape de transformation qui utilise un mécanisme d'attention pour lier les tokens entre eux et les positionner dans le contexte complet. Ce qui permet au réseau de neurones de prendre en compte les tokens par rapport aux autres et pas dans le désordre. Dans la phrase "Le chat blanc est couché sur le canapé vert", "couché" et "blanc" se rapportent au mot "chat", tandis que "vert" se rapporte à "canapé", et jusqu'à preuve du contraire, il est difficile de rencontrer des chats verts, et les canapés se couchent rarement sur les chats.
Sortir de l'amnésie
Au tout début, l'utilisation d'un LLM s'apparentait à l'interrogation d'un système monolithique fermé. L'architecture logicielle se résumait à transmettre la chaîne de caractères (prompt) à un réseau de neurones, lequel renvoyait une autre chaîne de caractères. Cette approche, bien qu'impressionnante par sa capacité à mimer le langage naturel, présentait des failles structurelles majeures pour toute application nécessitant de la précision et de la fraîcheur.
La première faille est l'hallucination, qui n'est pas un bug informatique, mais une fonctionnalité intrinsèque de l'algorithme d'attention. Si le modèle ne possède pas la réponse dans ses poids synaptiques, son fonctionnement le contraint néanmoins à maximiser la probabilité de la séquence suivante. Il génère ainsi le mot le plus sémantiquement crédible, quitte à inventer des faits de toutes pièces, car le modèle optimise la cohérence linguistique et non la vérité factuelle.
La seconde faille réside dans l'obsolescence des connaissances. La mémoire d'un modèle est figée à la date exacte de la fin de sa phase de pré-entraînement. Pour qu'il soit à jour de l'actualité, il fallait initialement recourir à un nouveau pré-entraînement, une opération coûteuse, lente et souvent inefficace pour l'injection pure de nouveaux faits.
Pour pallier ces limitations, on a vite compris qu'il ne fallait plus considérer le modèle comme une base de données, mais comme un moteur de raisonnement auquel il fallait fournir des données externes. Cette prise de conscience a déclenché une course technologique effrénée entre deux approches distinctes pour gérer ce contexte externe : l'expansion massive des fenêtres de contexte et le développement des RAG (Retrieval Augmented Generation).
Avec une fenêtre de contexte très grande, pouvant aller jusqu'à 2 millions de tokens, soit 3 livres complets, on peut injecter l'intégralité des articles de presse du jour et dire "En utilisant uniquement les informations ci-dessus, réponds à ma question". À l'inverse, le RAG connecte le modèle à un moteur de recherche pour filtrer une base de données externe et n'injecte dans le contexte que les quelques extraits précis indispensables à la réponse.
Alors, pourquoi parle-t-on de "course technologique" ? En fait, c'est une bataille philosophique et technique :
- Les partisans du Long Context (comme Gemini 1.5 Pro) disent : "Arrêtons de bricoler avec des moteurs de recherche externes (RAG), donnons simplement au modèle la capacité de tout lire d'un coup, c'est plus intelligent."
- Les partisans du RAG disent : "C'est du gaspillage de ressources de tout lire à chaque fois. Il vaut mieux optimiser la recherche pour être précis et économe."
L'illusion du contexte infini
Au cours des années 2024 et 2025, l'industrie a été témoin d'une augmentation spectaculaire, presque absurde, de la taille des fenêtres de contexte. Les constructeurs se sont lancés dans une surenchère marketing, proposant des modèles capables d'ingérer des centaines de milliers, puis des millions de tokens en une seule passe. À titre d'exemple, l'écosystème Gemini de Google a repoussé ces limites, avec des modèles comme Gemini 1.5 Pro et Gemini 2.0 Flash acceptant respectivement jusqu'à deux millions et un million de tokens en entrée. La version expérimentale Gemini 3 Pro maintient une fenêtre d'un million de tokens tout en étendant la prise en charge multimodale pour traiter simultanément du texte, des images, des vidéos et des flux audio.
D'un point de vue purement théorique, cette capacité technique a soulevé une hypothèse séduisante et souvent répétée dans les cercles de développement : si un modèle peut désormais ingérer l'intégralité du manuel de référence d'un logiciel, d'une base de données de contrats juridiques ou de l'historique complet d'un projet en une seule requête, l'architecture complexe du RAG devient-elle obsolète ? Pourquoi s'infliger la charge de maintenir des bases de données vectorielles, de calculer des embeddings et d'affiner des algorithmes de chunk quand on peut simplement "tout envoyer" au modèle de manière brute ?
Cependant, la réalité du terrain et les recherches approfondies ont rapidement démontré que l'injection massive de texte dans une fenêtre de contexte se heurte violemment à des contraintes : un déficit d'attention, un coût et une latence.
Le syndrome du "trou de mémoire" central
La contrainte la plus notable à l'utilisation des fenêtres de contexte géantes, c'est une limitation fondamentale de l'algorithme d'attention : le phénomène dit "Lost in the Middle".
Des recherches approfondies, notamment menées par des équipes de l'Université de Stanford, de l'Université de Californie à Berkeley et de Samaya AI, ont révélé que lorsqu'un modèle est soumis à un contexte extrêmement long, sa capacité à retrouver une information spécifique dépend de l'emplacement de cette information. Les modèles démontrent une précision très élevée lorsque l'information pertinente se situe au tout début ou à l'extrême fin du prompt. En revanche, lorsque les données sont enfouies au milieu d'un long contexte, la capacité du modèle à retrouver et à exploiter cette information peut chuter de manière significative. Le modèle commence à halluciner ou oublie tout simplement les détails cruciaux noyés dans la masse, car sa conception mathématique, autorégressifs, confère au système un biais en faveur des tout premiers éléments d'une entrée, qui sont consultés et réévalués à de multiples reprises après chaque nouveau jeton. À mesure que le modèle s'approfondit et que les couches d'attention s'empilent, ce biais s'amplifie de manière disproportionnée.
En 2026, bien qu'on ait tenté d'atténuer ce problème par l'utilisation d'encodages positionnels complexes (comme la technique Rotary Position Embedding) pour lier mathématiquement les mots à leur voisinage immédiat, l'effet est toujours partiellement présent sur des séquences de millions de tokens, et les modèles créent toujours une zone de flou informationnel au milieu d'un contexte massif.
Le mur du portefeuille et de la latence
Au-delà de la perte de précision algorithmique, le traitement d'un contexte étendu exige des ressources de calcul massives (RAM, GPU, TPU) qui croissent exponentiellement avec la longueur de la séquence.
L'approche consistant à insérer l'intégralité des documents dans le contexte entraîne une explosion des coûts d'inférence, car la quasi-totalité des fournisseurs d'API facturent chaque jeton ingéré.
Même si les modèles "lite" ou "flash" offrent un traitement à haut débit et à faible coût, l'envoi systématique d'un demi-million de tokens à chaque interaction utilisateur pour une simple question multiplie les coûts opérationnels de manière irrationnelle par rapport à une extraction ciblée de quelques centaines de tokens. Les modèles capables d'ingérer de gigantesques contextes imposent souvent une tarification "premium" qui croît sur deux dimensions : la quantité de tokens, et le prix unitaire du token.
Par ailleurs, la latence devient un obstacle pour l'expérience utilisateur et les applications nécessitant des réponses en temps quasi réel. Le temps nécessaire au réseau de neurones pour calculer les matrices d'attention sur une séquence de plusieurs millions de tokens (Time to First Token) augmente considérablement. Les mesures comparatives montrent que la latence médiane pour analyser un contexte saturé sur un modèle lourd peut être plus du double de celle d'un modèle léger traitant un contexte restreint. Dans des scénarios de production à fort trafic, l'approche du contexte géant s'effondre sous son propre poids financier et matériel.
La maturation du RAG
Face aux difficultés financières et techniques du "contexte infini", les RAG n'ont pas disparu. Au contraire, ils se sont imposés comme la méthode la plus rapide, la plus économique et qui offre le meilleur contrôle sur la précision pour intégrer des données privées.
L'évolution technologique a cependant transformé le RAG. Il a largement dépassé le stade naïf de ses débuts, qui consistait simplement à découper des textes, à les convertir en vecteurs et à exécuter une recherche par similarité.
Aujourd'hui, l'architecture RAG est devenue un véritable moteur de contexte, constituant la couche unifiée de gestion de l'information de toute application d'intelligence artificielle digne de ce nom. La gestion de l'historique de conversation (la mémoire) n'est d'ailleurs qu'une instanciation spécifique du RAG, où la source de données est le journal des interactions et où la pertinence temporelle prime.
L'implémentation d'un RAG en 2026 repose sur des pipelines complexes visant à maximiser la précision tout en minimisant la quantité de tokens envoyés dans le contexte. Pour cela, la récupération se fait en deux étapes.
La première phase effectue une recherche hybride, similaire aux premières méthodes RAG, qui combine la recherche vectorielle avec des algorithmes traditionnels de correspondance de mots-clés pondérés comme BM25.
Une fois qu'un ensemble de documents potentiellement pertinents ont été récupérés, la deuxième phase entre en jeu : le reranking via un Cross-Encoder qui évalue la requête et le document simultanément, offrant une précision de correspondance sémantique bien supérieure pour déterminer la véritable pertinence des fragments de texte.
Cette stratégie d'entonnoir permet de filtrer impitoyablement le bruit. Au lieu d'envoyer un million de tokens au LLM, le système RAG ne transmet au LLM que les portions de document les plus pertinentes.
Plus important encore, l'orchestrateur effectue un ordonnancement stratégique : il place artificiellement les éléments les plus critiques tout au début et à l'extrême fin de la séquence injectée dans le prompt. Le système exploite ainsi, de manière délibérée, le biais positionnel de l'algorithmique pour s'assurer que le modèle de langage n'oublie aucune information vitale lors de la génération de sa réponse. C'est une approche qui évite de noyer le modèle.
L'enjeu n'est plus d'opposer RAG et contexte étendu, mais de les faire fusionner. Le RAG moderne sert de filtre intelligent : il ne se contente pas de réduire la donnée, il pré-mâche et structure l'information pour que le modèle de langage puisse exploiter sa fenêtre de contexte, même vaste, avec une plus grande efficacité.
Quand le modèle devient chef d'orchestre
La capacité d'un modèle à ingérer le bon contexte via le RAG reste, fondamentalement, un système passif. Un modèle de langage qui se contente de lire et de synthétiser est confiné dans une bulle de texte. La véritable bascule a eu lieu lorsque la communauté de développement a décidé de donner des "mains" à ces cerveaux isolés via l'appel de fonctions.
L'appel de fonction modifie la nature même de l'interaction. Le modèle ne se contente plus de prédire le texte de réponse, mais il décide, de manière autonome, d'interrompre sa génération de texte pour demander l'exécution d'une action externe.
Lors de son inférence séquentielle, si le modèle déduit de la conversation que l'utilisateur a besoin d'un calcul complexe, il n'essaie plus de deviner le résultat statistiquement (ce qui mènerait inévitablement à une hallucination mathématique), mais il fait faire le calcul à un script Python dont le résultat est ré-injecté comme nouvelle donnée dans le contexte. Le LLM reprend alors son inférence, lit le résultat de sa propre action, et génère la synthèse en langage naturel.
Cette mécanique transforme le modèle de langage. Il cesse de deviner statistiquement la réponse pour devenir un centre de contrôle d'un genre nouveau, capable d'interagir avec son hôte. Cependant, confier la prise de décision à un modèle standard, conçu pour générer du texte fluide, montre rapidement des limites dès lors que le processus d'action nécessite de la planification à plusieurs étapes, de la logique conditionnelle ou de l'auto-correction. C'est ici qu'intervient la deuxième grande révolution de ces dernières années : l'émergence de l'inférence analytique.
Apprendre à réfléchir avant de parler
Pendant des années, le développement de l'intelligence artificielle a été gouverné par le pré-entraînement de réseaux de neurones. Le postulat était simple et brutal : pour augmenter l'intelligence et la précision d'un modèle, il suffisait d'augmenter massivement la taille du jeu de données, le nombre de paramètres du réseau de neurones et la puissance de calcul allouée pendant les mois d'entraînement initiaux. Une fois entraînés, les modèles exécutent les requêtes de manière rapide, linéaire et déterministe.
En science cognitive, ce mode de fonctionnement est appelé chez les humains "traitement automatique" (on dit aussi "système 1" ou "processus heuristique") : c'est un mode de pensée rapide, automatique, réactif et hautement contextualisé. C'est notre fameuse "intuition", qui se traduit dans les LLM en "intuition statistique". Pour des tâches de traduction, de résumé, ou de chat conversationnel fluide, ce système est parfait. Mais face à des problèmes complexes de développement logiciel, de mathématiques avancées, ou d'énigmes logiques nécessitant une planification arborescente, cette pensée rapide, incapable d'anticipation ou de retour en arrière, échoue lamentablement.
L'année 2024, et sa maturation en 2025-2026, a marqué une rupture fondamentale avec l'introduction des modèles de raisonnement. C'est un mode similaire au mode de pensée humain que l'on appelle "traitement contrôlé" (on dit aussi "Système 2" ou "processus analytique"), un système de pensée plutôt lent, exigeant en énergie, conscient et délibéré.
Pour illustrer cette rupture de manière pragmatique, prenons l'analogie d'un enfant apprenant les mathématiques. Lorsqu'on lui demande "combien font 7 fois 8", il répond "56" instantanément. Il ne calcule pas véritablement ; il recrache une information mémorisée par cœur via une simple association réflexe, automatique et inconsciente. C'est le traitement automatique. En revanche, si on lui demande de multiplier "342 par 87", l'intuition ne suffit plus. L'enfant doit prendre un brouillon, poser l'opération, calculer les unités, gérer les retenues, puis additionner les sous-totaux étape par étape. Ce processus laborieux, séquentiel, logique et conscient, c'est le traitement contrôlé. Les modèles de raisonnement modernes reproduisent exactement ce comportement : ils déploient un brouillon interne visible pour poser le problème avant d'oser formuler une réponse. "Tourne sept fois la langue dans ta bouche avant de parler !"
Lorsqu'un utilisateur soumet un problème complexe, un modèle de raisonnement n'écrit pas immédiatement la réponse. Il active une "chaîne de pensée" pour explorer différentes branches de raisonnement, générer des hypothèses, les évaluer dynamiquement, reconnaître ses propres impasses logiques, abandonner des pistes, et s'auto-corriger. Ce processus itératif se déroule en interne, invisible pour l'utilisateur, et consomme des milliers de tokens avant de produire la sortie finale.
Les limites du raisonnement
Toutefois, ce gain spectaculaire en logique pure et en capacité de décision autonome s'accompagne de compromis en matière de performance brute et de coûts financiers. L'utilisation d'une chaîne de pensée engendre une explosion du temps de génération de la réponse, la rendant inutilisable dans des applications temps réel.
L'impact budgétaire est tout aussi significatif, car la plupart des fournisseurs de LLM facturent aux tokens utilisés, et la chaîne de pensée génère inévitablement beaucoup de tokens invisibles mais tout de même payés par l'utilisateur. Et cette consommation n'est pas négligeable.
L'activation du raisonnement sur les modèles les plus avancés transforme radicalement l'équation économique de vos requêtes.
Paradoxalement, on constate que l'utilisation de la chaîne de pensée sur des problèmes simples peut détériorer les performances du modèle, entraînant une sorte d'égarement cognitif. Ce constat nous impose de développer une stratégie, où le système doit apprendre, via des modèles spécifiques, à calibrer son effort de raisonnement.
Dans la pratique, confier la gestion d'un chat basique ou la simple extraction de mots-clés à un modèle de raisonnement revient à louer un supercalculateur scientifique pour en faire une calculatrice de bureau. C'est une aberration architecturale. Il est impératif de réserver l'usage des modèles de raisonnement à des cas précis : la conception algorithmique, la navigation dans des labyrinthes logiques, l'évaluation critique, ou la phase de planification initiale d'un flux de travail agentique complexe. Les tâches définies, répétitives et d'exécution pure doivent demeurer le territoire exclusif des modèles automatiques.
L'aiguilleur du ciel sémantique
La juxtaposition de ces modèles diamétralement opposés en termes de coût et de capacité impose un nouveau défi : comment le système sait-il, avant même d'exécuter la tâche, vers quel type de modèle diriger la requête de l'utilisateur ? On pourrait utiliser le LLM pour évaluer le niveau de difficulté de chaque requête entrante, mais cela annulerait tous les bénéfices économiques recherchés.
La solution qui s'est progressivement imposée, c'est le routage sémantique. Placé en amont du système, le routeur sémantique agit comme le contrôleur d'aiguillage ultra-rapide et ultra-économique.
Contrairement à l'approche "LLM" via du prompting, le routeur sémantique s'appuie sur la manipulation d'espaces vectoriels (embeddings).
La requête textuelle est immédiatement convertie en un vecteur mathématique par un modèle d'encodage extrêmement léger, tel que ModernBERT, qui s'exécute localement avec une consommation de mémoire infime via des bibliothèques optimisées comme Rust Candle. Le système ne cherche pas à comprendre le sens cognitif de la phrase, mais positionne mathématiquement ce vecteur dans un espace de décisions multidimensionnel, souvent hébergé en mémoire ou via des bases de données vectorielles dédiées (Pinecone, Qdrant).
En fonction de la distance vectorielle entre le texte en entrée et l'espace vectoriel de routage, la requête sera déviée soit vers un modèle économique et rapide, soit vers un modèle de raisonnement.
L'adoption de cette architecture permet de réduire radicalement la latence, mais également le coût financier.
De plus, ce point de passage obligatoire agit comme un pare-feu cognitif. Avant même de solliciter les moteurs d'inférence, des modèles classificateurs rapides scrutent le vecteur de la requête pour y déceler des tentatives d'injections de prompt ou des contenus toxiques, écartant ainsi les requêtes malveillantes avec une latence nulle et préservant la sécurité système.
Ce n'est qu'en l'absence de toute correspondance stricte dans l'espace vectoriel, face à une demande totalement inédite ou ambiguë, que le routeur sémantique capitulera et déléguera gracieusement la prise de décision à un LLM généraliste.
L'architecture multi-agents
Le RAG pour la connaissance, l'appel de fonction pour l'action, le raisonnement complexe, et le routage sémantique pour la répartition des charges : nous disposons de toutes les briques fondamentales. L'assemblage de ces éléments constitue l'aboutissement logique de l'évolution logicielle en intelligence artificielle, marquant l'ère des systèmes distribués de 2026 : l'architecture multi-agents.
L'architecture multi-agents repose sur un chef d'orchestre déléguant des tâches à des processus IA spécialisés et indépendants.
Cette approche décentralisée réduit radicalement les coûts d'exploitation et augmente la résilience globale du système, car chaque composant est isolé, testable, et remplaçable sans compromettre la base logicielle. Chaque agent reste néanmoins un moteur probabiliste : la spécialisation réduit l'espace des erreurs possibles, mais ne les élimine pas.
L'optimisation ultime de l'architecture multi-agents en 2026 passe par la redistribution physique de la puissance de calcul. Au lieu de concentrer l'intégralité du travail sur des fournisseurs d'API de modèle en SaaS, on déporte certaines tâches simples vers des SLM (Small Language Models), des réseaux de neurones hautement optimisés pesant souvent moins de 8 milliards de paramètres, capables de s'exécuter localement sans nécessiter de connexion réseau.
Le SLM devient ainsi un expert contextuel persistant. Ce n'est que face à une requête sortant de son champ de compétences, ou requérant une puissance analytique supérieure, que l'agent de supervision déclenchera le routage de la tâche vers l'opérateur de modèle en SaaS.
Quand les modèles s'auto-corrigent
L'un des plus grands défis de l'IA en entreprise est la confiance dans ses réponses : comment savoir si une IA commence à halluciner ou à devenir incohérente ?
La solution réside dans une architecture à deux têtes :
- Un modèle d'exécution rapide et agile qui génère le contenu, le code ou les réponses.
- Un modèle doté d'une forte capacité de raisonnement qui analyse le travail du premier.
C'est le concept du "LLM-as-a-judge". Au lieu d'attendre qu'un humain vérifie chaque réponse, on utilise la logique supérieure d'un modèle à raisonnement pour noter et valider la production du modèle standard.
L'impact concret : dans les environnements réglementés, l'utilisation d'un juge "analytique" (comme GPT-4o ou Claude 3.5 Sonnet) pour évaluer un modèle plus petit permet de réduire drastiquement le taux de faux positifs. Des études sur le benchmark MT-Bench ont montré que les modèles de raisonnement avancés atteignent une corrélation de plus de 80 % avec les jugements humains, surpassant largement les systèmes de vérification basés sur les mots-clés classiques.
Cette boucle de contrôle automatique est le dernier verrou de sécurité : elle permet de certifier qu'une réponse est fiable avant même qu'elle n'arrive sous les yeux de l'utilisateur.
Perspectives : l'IA comme système résilient
En seulement deux ans, notre rapport aux modèles de langage a radicalement changé. Nous avons cessé de voir l'IA comme une entité monolithique et mystérieuse que l'on tente de "dompter" par des formules magiques (le fameux "prompt engineering"). Aujourd'hui, le modèle n'est plus qu'une pièce de puzzle, un moteur de calcul intégré au sein d'architectures hybrides beaucoup plus vastes.
Cette évolution est née d'un constat de réalisme. Nous avons compris que donner des contextes infinis à une IA ne servait à rien si elle s'y perdait. C'est pourquoi les RAG se sont imposés pour naviguer dans des bases de connaissances massives en triant et nettoyant le bruit inutile. Cela a permis de redonner ses lettres de noblesse au contexte étendu qui reste très intéressant pour une analyse exhaustive de documents volumineux que le découpage du RAG peine parfois à égaler.
Parallèlement, une hiérarchie s'est installée. D'un côté, des modèles "réflexes", rapides et peu coûteux, dont les réponses restent probabilistes ; de l'autre, des modèles de "raisonnement profond", puissants mais lents et chers. Pour ne pas faire exploser les budgets, nous avons dû créer de véritables tours de contrôle : des routeurs intelligents qui décident, en quelques millisecondes, quel modèle est le plus apte à répondre à chaque question.
En 2026, créer une solution d'IA relève donc de l'ingénierie système la plus pure. Le développeur ne se contente plus de "discuter" avec un réseau de neurones en espérant obtenir la bonne réponse. Il est devenu l'architecte d'une usine logicielle où des dizaines de micro-agents collaborent, se surveillent et s'auto-corrigent.
En fin de compte, la véritable révolution n'est peut-être pas dans la puissance des modèles eux-mêmes, mais dans notre capacité à les organiser. Nous ne construisons plus des oracles, mais des systèmes résilients capables d'agir sur le monde réel. La question n'est plus de savoir si l'IA peut penser, mais jusqu'à quel point nous saurons orchestrer son autonomie.
Suivez-moi sur Bluesky: @bouchery.fr