6 projets d’IA open source sur GitHub que j’ai vraiment testés

J’ai failli ne pas cloner le premier dépôt.

C’était un dimanche matin, j’avais trois cafés alignés et un agent à moitié codé qui continuait à halluciner des arguments d’outils, et mon onglet « Trending » sur GitHub faisait ce truc où chaque projet ressemble à la même capture d’écran : terminal sombre, dégradé violet, « autonomous » dans le slogan. J’étais prêt à fermer le navigateur et à aller réparer mon agent cassé avec Claude Code et un peu de force brute. Puis j’ai vu Hermes Agent, j’ai regardé son schéma d’architecture mémoire, et je me suis dit, attends, ça pourrait vraiment résoudre le problème que j’essaie de forcer à la main en ce moment.

C’est comme ça que ce post a commencé.

Au cours de la semaine suivante, j’ai cloné six projets d’IA open source qui montaient en flèche dans les tendances GitHub entre mars et début avril 2026. Pas pour les « reviewer » comme un touriste qui lit des communiqués de presse. Pour vraiment les faire tourner sur ma machine, les casser, tester les parties que le README passe sous silence, et voir lesquels valent vraiment votre week-end. Certains ont changé ma façon de penser à l’endroit où l’IA doit vivre (indice : pas toujours dans un datacenter). L’un d’eux gère la mémoire d’agent d’une manière que je copie désormais sans vergogne dans ma propre stack. Et l’un d’eux est un minuscule fichier CLAUDE.md qui est peut-être, discrètement, la chose la plus utile que j’aie installée ce mois-ci.

Avant d’entrer dans le détail des six projets, une chose m’a frappé tout au long de mes tests : la frontière intéressante de l’IA open source en ce moment, ce ne sont pas les modèles plus gros. Ce sont les modèles plus petits, plus spécialisés, plus locaux, et plus honnêtes sur ce que sont réellement les LLM. Chaque projet de cette liste va dans ce sens : loin du « gros modèle cloud qui fait tout », et vers « de petits modules, faiblement couplés, qui tournent là où vous travaillez vraiment ».

On y va.

Pourquoi ce tour d’horizon est différent de ceux que vous avez déjà lus

Je sais. Encore un article sur les “dépôts GitHub tendance”. Moi aussi, je fais défiler sans m’arrêter.

Le problème de la plupart de ces sélections, c’est qu’elles sont écrites à partir du README. Quelqu’un ouvre le dépôt, lit la description épinglée, récupère la capture d’écran, et paraphrase la liste des fonctionnalités en quinze paragraphes de prose vaguement orientée IA. À la fin de l’article, vous n’avez aucune idée de ce que ça donne réellement à l’usage.

J’ai pris une autre approche. Pour chacun de ces six projets, j’ai fait trois choses :

J’ai cloné le dépôt et je l’ai fait tourner en local — ou je l’ai installé comme le ferait un utilisateur lambda (la galerie edge sur mon iPhone, la skill Karpathy dans Claude Code en tant que vrai plugin).
J’ai exécuté une tâche concrète, correspondant à mon usage réel — pas la démo soigneusement choisie du readme.
J’ai noté la première chose qui a cassé, qui m’a embrouillé, ou qui ne correspondait pas au marketing.

C’est cette troisième étape qui justifie la longueur de ce post. Les deux premières, vous pouvez les trouver sur n’importe quel blog. La troisième, c’est ce qui vous évite de perdre un samedi pour rien.

Petite précision : j’écris sur l’écosystème open-source des agents depuis un moment, et certains de ces projets recoupent des sujets déjà traités — comme le système de skills agents de Claude Code, les alternatives open-source à Claude comme OpenClaw, ou la gestion de workflows multi-agents avec des outils Kanban. Quand il y a un lien direct, je vous renverrai vers l’article détaillé plutôt que de me répéter.

Voilà. Six projets. On commence par celui qui, discrètement, est le plus disruptif.

1. Google AI Edge Gallery — L’App Store des mini-LLM dans votre poche

La première fois que vous installez Google AI Edge Gallery et que vous coupez votre wifi, cela ressemble à un petit tour de magie.

Vous ouvrez l’application. Vous chargez un modèle — par exemple, l’une des variantes Gemma 4 à faible empreinte du catalogue intégré. Vous appuyez sur « chat ». Vous tapez une question. Il répond. Pas de roue qui tourne en attendant un serveur. Pas de bannière « Vérification de la connexion... ». Pas de compteur de jetons qui s’incrémente quelque part dans le cloud. Juste un modèle, la puce de votre téléphone, et une réponse.

C’est ça, la promesse — et elle est réelle.

Ce que c’est vraiment

AI Edge Gallery est une application de référence open source de Google — Kotlin pour Android, Swift pour iOS — construite sur LiteRT-LM, le nouveau moteur d’inférence haute performance de Google pour exécuter des LLM en local. Considérez la galerie comme une vitrine et un outil de développement fusionnés : une application utilisateur finale soignée que vous pouvez faire tourner sur votre propre téléphone, et une base de code open source que vous pouvez forker, épurer et réutiliser dans votre propre projet mobile d’IA.

Le dépôt se trouve sur GitHub à l’adresse google-ai-edge/gallery. La version iOS est disponible sur l’App Store sous le nom « Google AI Edge Gallery ». Et ce qu’il faut savoir : toute l’implémentation de référence — interface de sélection de modèle, inférence locale, sortie structurée, même les appels d’outils agentiques — est présente dans la base de code, à lire en toute transparence.

Ce que j’ai testé

Je l’ai poussée dans trois directions précises :

Test 1 : Mode avion, génération longue. J’ai chargé une petite variante de Gemma, mis mon iPhone en mode avion, et demandé la rédaction d’une note de version de trois paragraphes à partir d’une liste à puces. La réponse était environ 40 % plus lente qu’un appel cloud depuis le même endroit, mais — et c’est là l’essentiel — cela a fonctionné, sur un appareil qui, pour le réseau, était un simple pavé. Pour rédiger en mobilité tout en préservant la confidentialité (notes médicales, briefs clients, tout ce que vous ne voulez pas faire transiter par une API tierce), c’est déjà utile.

Test 2 : Compétences agentiques avec appels d’outils. Selon le blog développeurs de Google, Gemma 4 en local prend désormais en charge ce qu’ils appellent des « compétences agentiques » — ancrage via Wikipédia, cartes interactives, fiches de synthèse. J’ai testé le flux basé sur Wikipédia et cela a fonctionné à peu près comme annoncé, même si la fiabilité des appels d’outils était visiblement plus fragile que ce à quoi je suis habitué avec les grands modèles cloud. Suffisant pour une démo. Pas encore pour la production.

Test 3 : Forker le code dans mon propre projet mobile. C’est là que la galerie prend tout son sens. Parce qu’il s’agit d’une vraie application de référence en production, vous pouvez voir exactement comment Google conçoit l’inférence LLM sur appareil : gestion des modèles, gestion mémoire, construction des prompts, toute la pile. J’ai passé une heure à lire le pipeline d’inférence et j’ai appris plus sur l’architecture edge-AI concrète qu’en trois semaines de lectures de blogs.

Ce qui cloche (ou du moins, ce qui reste perfectible)

Deux mises en garde honnêtes. D’abord, les modèles que vous pouvez réellement exécuter sur un téléphone aujourd’hui sont vraiment petits, et leurs limites se voient. Attendez-vous à des réponses absurdes mais confiantes dès qu’il s’agit de connaissances générales ou de raisonnement complexe. Ensuite, la voie des appels d’outils agentiques est nouvelle et un peu fragile : quand ça échoue, ça échoue en silence, ce qui est pire qu’une erreur bruyante.

Le vrai enseignement

L’IA embarquée n’est plus un « joli prototype dans un article de recherche ». Elle est disponible, en open source, avec une application de référence en production que vous pouvez utiliser dès maintenant. Tout développeur mobile devrait passer une soirée à cloner ce dépôt et à lire le code d’inférence. Le futur où chaque application embarque un petit modèle local qui fait 80 % du travail avant même de solliciter une API cloud vient de se rapprocher considérablement.

Et voilà pour le premier projet. Si la galerie edge concerne l’endroit où l’IA s’exécute, le prochain projet porte sur la manière dont nous apprenons grâce à elle.

2. DeepTutor — Assistant d’Apprentissage Open Source, Natif pour Agents

Je vais dire quelque chose qui semblera injuste envers ChatGPT : pour réellement apprendre à partir d’un document, la simple fenêtre de chat est la mauvaise interface.

Vous l’avez ressenti. Vous importez un PDF, vous posez des questions, vous obtenez des réponses, mais vous n’apprenez jamais vraiment le document. Il n’y a aucune structure. Aucun progrès. Pas de “voici ce que vous avez compris, voici ce qui reste flou, voici une question d’entraînement pour vérifier.” Le document et le chat vivent dans deux univers différents, et vous faites frénétiquement des copier-coller entre les deux.

DeepTutor, issu du laboratoire de data science de l’Université de Hong Kong, est la tentative open source la plus sérieuse que j’aie vue pour résoudre ce problème.

Qu’est-ce que c’est

DeepTutor se présente comme un “assistant d’apprentissage personnalisé, natif pour agents.” En clair : c’est un système open source multi-agents conçu autour de l’idée que l’apprentissage est un flux de travail, pas une simple discussion. Vous importez des PDF, des fichiers TXT ou Markdown. Il construit une base de connaissances consultable. Ensuite, il exécute plusieurs agents spécialisés — un pour les questions/réponses sur les documents avec citations précises, un pour la génération de questions d’entraînement, un pour des parcours d’apprentissage guidés en plusieurs étapes, un pour la construction de graphes de connaissances reliant les entités et relations à travers vos supports.

Ce que je trouve intéressant : il maintient un “profil” persistant de vous — vos objectifs, vos préférences, votre progression — ainsi qu’un “résumé” évolutif de ce que vous avez appris. C’est la boucle de rétroaction qui manque aux interfaces de chat.

D’après les mainteneurs, le projet a dépassé les 1 400 étoiles GitHub dès sa première semaine de publication et continue de grimper. Je n’ai pas vérifié indépendamment le nombre actuel d’étoiles, mais l’activité sur le dépôt est indéniablement réelle.

Ce que j’ai testé

Je l’ai mis à l’épreuve sur une pile que je devais vraiment comprendre : la documentation de l’Anthropic Agent SDK, plus deux longs PDF techniques sur l’architecture mémoire pour agents. Environ 180 pages réparties sur trois fichiers. Voici ce qui s’est passé :

J’ai importé les documents, attendu l’indexation (étonnamment rapide — moins de deux minutes sur une machine de configuration moyenne), puis posé une question qui me posait problème : “Quand la compaction mémoire du SDK s’active-t-elle, et quels sont les compromis entre compaction anticipée et paresseuse ?” La réponse est revenue avec des citations précises des passages exacts dans les PDF, pas de vagues paraphrases. Rien que cela le place au-dessus de toutes les expériences de chat-avec-PDF que j’avais testées auparavant.

Ensuite, j’ai utilisé le générateur de questions d’entraînement. Il a produit cinq questions d’un niveau de difficulté approprié, dont trois étaient réellement utiles (les deux autres étaient anecdotiques). Le parcours d’apprentissage guidé a vraiment fait la différence — il a transformé les trois documents en un plan de cours sommaire avec des points de contrôle.

Là où ça pêche

La mise en place est plus lourde qu’un simple “installer une appli.” C’est un système open source multi-agents, ce qui signifie que vous devez configurer les modèles, les variables d’environnement et un runtime local. C’est un projet destiné aux développeurs et aux utilisateurs avancés, pas à votre ami non technique qui cherche juste un meilleur chat PDF. De plus, la qualité des questions d’entraînement et du graphe de connaissances varie fortement selon le LLM sous-jacent que vous branchez.

Pourquoi c’est important

DeepTutor pointe vers quelque chose de plus grand que lui. L’avenir de “l’apprentissage avec l’IA” n’est pas une fenêtre de chat greffée sur un lecteur PDF. Ce sont des flux de travail d’agents conçus pour l’apprentissage, où l’IA connaît vos objectifs, votre progression et le contenu — et orchestre l’ensemble. DeepTutor est une version précoce, imparfaite, mais très prometteuse de cet avenir, et il est entièrement open source. Si vous enseignez, faites du tutorat, rédigez des supports de cours ou souhaitez simplement apprendre plus efficacement à partir de vos documents, clonez-le.

Voilà deux projets sur la façon dont l’IA s’intègre à nos usages et sur notre manière d’en tirer des apprentissages. Passons maintenant à celui qui a discrètement changé ma façon de penser la mémoire des agents.

3. Hermes Agent — Un agent IA qui se souvient vraiment

D’accord. C’est celui qui m’a poussé à réarchitecturer mon propre agent.

Voici le problème auquel tout créateur d’agents IA open-source finit par se heurter : la mémoire. On commence avec un prompt vierge, on construit le contexte au fil de la session, tout fonctionne. Puis on essaie de faire en sorte que l’agent se souvienne d’une session à l’autre. Premier réflexe : tout entasser dans le prompt système — conversations passées, préférences utilisateur, faits sur le projet. Ça marche. Jusqu’à ce que ça ne marche plus. Jusqu’à ce que le prompt gonfle au-delà du raisonnable, que les coûts explosent, que la latence s’effondre, et que le modèle commence à se tromper avec assurance sur des choses qu’il devrait savoir.

J’ai vu ce schéma une douzaine de fois. Je l’ai moi-même reproduit une douzaine de fois. Hermes Agent, de Nous Research, est le premier framework open-source que j’ai trouvé qui traite la mémoire comme un vrai problème d’architecture, et qui le résout comme il faut le faire : avec des couches mémoire spécialisées, à récupération à la demande, au lieu de bourrer le prompt.

Ce que contient réellement le système de mémoire

D’après la documentation du projet, Hermes utilise une architecture mémoire multi-niveaux (le marketing parle parfois de trois couches, parfois de multi-niveaux — je vais m’en tenir à la description des docs). Au minimum, il distingue :

Mémoire de session — le contexte courant de l’interaction en cours.
Mémoire persistante — faits, préférences et détails de projet qui survivent d’une session à l’autre.
Mémoire de compétences — quand l’agent résout un problème non trivial, il rédige un « document de compétence » réutilisable décrivant comment il y est parvenu, et ce document devient un élément récupérable auquel l’agent pourra se référer plus tard.

Sous le capot, la couche persistante utilise la recherche plein texte FTS5 combinée à une synthèse pilotée par LLM. Plutôt que de fourrer toutes les conversations passées dans le prompt, l’agent ne récupère que les fragments pertinents au moment opportun. Il intègre aussi une modélisation dialectique de l’utilisateur (empruntée à Honcho) pour maintenir un modèle vivant de l’utilisateur, plutôt qu’un simple bloc statique « à propos de moi ».

Nous Research présente cela comme « un agent qui évolue avec vous ». D’après mes tests, cette promesse est globalement tenue.

Ce que j’ai testé

J’ai mis Hermes à l’épreuve sur un scénario que je connais bien : un projet de développement au long cours où l’agent doit se souvenir de décisions d’architecture d’une session à l’autre, sans devoir être ré-informé à chaque fois. Je lui ai donné une description fictive de codebase SaaS, mené une discussion de conception, fermé la session, puis, trois heures plus tard, posé une question de suivi qui dépendait d’une décision prise lors de la conversation précédente.

Il s’en est souvenu. Non pas en gardant tout l’historique en contexte, mais en récupérant le document de décision spécifique, en le mettant en avant, et en poursuivant à partir de là. C’est le comportement attendu, et c’est la première fois que je vois un framework d’agent open-source le faire proprement.

J’ai aussi testé la boucle de génération de compétences : j’ai guidé Hermes à travers une tâche modérément complexe (scaffolding d’un CLI TypeScript), et après coup, j’ai vérifié s’il s’était bien créé une compétence. C’était le cas. Le document de compétence n’était pas parfait — un peu trop spécifique à la tâche exacte que je lui avais donnée — mais la boucle fonctionnait. La prochaine fois que je lui demanderai de scaffolder quelque chose de similaire, il aura cette compétence à disposition.

Points de vigilance

Hermes est jeune, évolue vite, et son architecture est ambitieuse. Quelques points à surveiller : la qualité de la récupération dépend fortement de la qualité de l’index FTS5, les documents de compétences peuvent s’encombrer si on ne les nettoie pas de temps en temps, et comme le système est auto-modifiant (ajout de compétences au fil du temps), il faut traiter le store de compétences comme un dépôt de code — relire ce qu’il écrit, ne pas lui faire une confiance aveugle.

Si vous développez un agent IA persistant, c’est le projet à étudier ce mois-ci. Pas forcément à adopter tel quel, mais à analyser. Le modèle mental — la mémoire comme récupération à travers des couches spécialisées, pas du bourrage — est le bon, et Hermes en est l’implémentation open-source la plus propre que j’aie trouvée.

Ce qui amène naturellement au problème suivant : une fois qu’on a des agents intelligents, comment en faire tourner plus de deux sans perdre la tête ?

4. Multica — Gestion de projet pour équipes humaines et agents

Je dois l’avouer. Pendant des mois, mon « workflow multi-agent » se résumait à six terminaux Claude Code dans un gestionnaire de fenêtres en mosaïque, nommés agent-1 à agent-6, et un doc Notion que je mettais à jour à la main quand j’y pensais. Ce n’est pas un workflow. C’est un mécanisme de survie.

Multica essaie justement de résoudre ce problème.

Qu’est-ce que c’est

Multica se présente comme « la plateforme open-source d’agents managés » — une couche d’orchestration et de gestion de projet pour agents de codage IA. Contrairement aux outils qui tentent d’être l’agent, Multica s’enroule autour de l’agent que vous utilisez déjà (Claude Code, Codex, OpenClaw, OpenCode — le démon détecte automatiquement les CLIs sur votre PATH) et vous offre une interface Kanban pour assigner, suivre et coordonner le travail entre eux.

La promesse en clair : « traitez vos agents de codage comme des coéquipiers. » Vous créez une tâche. Vous l’assignez à un agent. L’agent la prend en charge, signale son statut, remonte les blocages et met à jour le tableau au fur et à mesure de l’avancement. Vous obtenez un tableau de bord façon mission-control qui montre en temps réel ce que fait chaque agent, et un cycle de vie des tâches qui reflète vraiment le fonctionnement des équipes d’ingénierie humaines.

Multica est auto-hébergeable via Docker Compose ou Kubernetes, et ils proposent aussi une version cloud managée si vous ne souhaitez pas gérer votre propre infrastructure.

Ce que j’ai testé

J’ai lancé la version auto-hébergée Docker Compose sur ma machine de dev, connecté à mon installation locale de Claude Code, et soumis trois petites tâches : ajouter un rate limiter à une API Express, écrire une GitHub Action pour un projet Node, et refactorer un composant React désordonné. Des tâches standards que n’importe quel agent de codage raisonnable devrait pouvoir gérer.

Ce que j’ai apprécié : voir les colonnes Kanban se mettre à jour en temps réel à mesure que l’agent faisait passer les tickets de « en attente » → « en cours » → « à revoir ». Quand l’agent a calé sur le refactoring React parce que le composant était plus étrange que ce que le ticket laissait entendre, il a signalé un blocage au lieu de générer silencieusement du code inutile. C’est exactement le comportement attendu d’un système managé.

Ce que j’ai moins aimé : la configuration initiale a pris plus de temps que prévu. La détection automatique de mon CLI Claude Code était impeccable, mais faire dialoguer le runtime avec mon répertoire de projet préféré a nécessité quelques ajustements de config. Rien de difficile, mais ce n’est pas du « one click ».

Là où il excelle — et là où il pêche

Multica brille vraiment quand vous faites tourner plusieurs agents en parallèle sur des tâches liées. Dès que vous orchestrez trois agents ou plus sur un projet, un outil comme Multica passe de « jolie interface » à « absolument indispensable ». Si vous ne faites tourner qu’un agent sur une seule tâche, c’est clairement surdimensionné.

Il faut aussi le dire : ce segment devient très vite saturé. Vibe Kanban, Veritas Kanban, les dashboards Mission Control, Agent HQ de GitHub — tout le monde veut devenir la couche « gestionnaire de projet pour agents ». L’argument de Multica, c’est open-source, auto-hébergeable, multi-CLI. Si ce sont vos critères, c’est un excellent choix. Si vous êtes à l’aise dans un écosystème fermé, vous n’en aurez sans doute pas besoin.

Une connexion à noter : j’ai déjà écrit sur le fait que les interfaces Kanban deviennent l’UI par défaut pour les systèmes multi-agents, et Multica en est une bonne illustration. L’écosystème des outils pour agents a clairement tranché : « des tickets sur un board » est la bonne abstraction pour la collaboration humain + IA, et je ne pense pas que cela va changer.

Quatre projets passés. Le prochain : un projet qui n’a absolument rien à voir avec les agents, la mémoire ou l’orchestration, et qui figure dans cette liste parce qu’il fait quelque chose de bien plus simple. Tailler les prix d’un SaaS payant.

5. OpenScreen (et ses amis) — Studio d’enregistrement d’écran gratuit, sans abonnement

Screen Studio est une superbe application Mac. Mais elle coûte aussi 29 $/mois ou un montant unique conséquent, selon la formule choisie, ce qui fait cher pour un simple enregistreur d’écran, même s’il gère l’auto-zoom et l’animation du curseur de façon vraiment, vraiment élégante.

La communauté open source, fidèle à elle-même, a vu ça et s’est dit : on peut le faire nous-mêmes.

Et c’est ce qu’ils ont fait. Plusieurs fois.

Ce qui existe réellement

Le brief initial de cet article évoquait « Open Source Screen Studio » comme un projet unique, mais ce que j’ai trouvé en avril 2026 ressemble plutôt à un petit écosystème de projets très similaires, tous centrés sur la même idée :

OpenScreen — l’alternative open source originale à Screen Studio. Pas d’abonnement, pas de watermark, gratuit même pour un usage commercial.
Recordly — un enregistreur d’écran Mac/Windows/Linux avec auto-zoom, curseurs animés, sous-titres automatiques. Il s’appuie largement sur la base d’OpenScreen.
Open Recorder — une version Tauri + Rust de la même idée, optimisée pour être légère et rapide.
Open ScreenStudio — un autre fork/variante, axé sur le zoom automatique et des effets de curseur fluides.

Quatre projets open source qui font essentiellement la même chose, tous apparus il y a environ six à neuf mois. Si vous voulez voir plus large, les options éprouvées (OBS Studio, ShareX) existent toujours, mais elles n’offrent pas l’esthétique « walkthrough » léchée que recherchent ces nouveaux venus.

Ce que j’ai testé

J’ai installé OpenScreen et reproduit ce que je fais habituellement avec Screen Studio : enregistrer un tutoriel de deux minutes sur un workflow terminal, avec auto-zoom sur les clics et un fond doux derrière la fenêtre. Le résultat n’était pas identique pixel à pixel à celui de Screen Studio, mais pour 90 % des usages — vidéos tutorielles, alternatives à Loom, démonstrations produit — c’était suffisamment bon pour que la différence ne compte pas. Et je n’ai pas payé 29 $.

Recordly est celui que je recommanderais de tester en priorité si vous êtes sur Mac et cherchez la solution la plus proche : c’est le projet le plus activement maintenu du lot à début avril 2026.

Pourquoi cette catégorie de projets compte

Il ne s’agit pas simplement d’enregistrement d’écran. C’est une question de tendance.

Chaque catégorie de SaaS créatif payant — enregistrement d’écran, outils d’écriture, utilitaires de design, prise de notes, gestion de tâches — voit désormais émerger une « alternative open source gratuite développée avec Tauri ou Electron en un week-end ». Parfois trois d’un coup. L’économie des logiciels de productivité grand public propriétaires est en train de se faire grignoter par le bas, ce qui n’était pas le cas il y a deux ans. L’IA y est pour beaucoup : lorsqu’un développeur solo peut utiliser Claude Code pour créer une vraie application desktop en un week-end, le coût pour cloner un produit à 29 $/mois tend vers zéro.

J’ai déjà écrit sur la façon dont l’IA bouleverse les modèles tarifaires du SaaS et on retrouve exactement ce schéma dans cette catégorie précise. Attendez-vous à en voir beaucoup plus.

Encore un projet à présenter. Et c’est le plus petit dépôt de la liste. Et peut-être mon préféré.

6. Compétences inspirées par Karpathy pour Claude Code — Le petit fichier qui a corrigé les pires habitudes de mon agent

Andrej Karpathy s’est exprimé publiquement, à plusieurs reprises, sur la façon dont les LLM de génération actuelle échouent de manière prévisible et spécifique lorsqu’ils sont utilisés pour le code. Les citations à retenir sont à peu près : les modèles font de mauvaises suppositions à votre place et s’y tiennent sans vérifier. Ils ne gèrent pas leur confusion, ne cherchent pas à clarifier, ne mettent pas en avant les incohérences, n’exposent pas les compromis, ne remettent pas en question quand ils le devraient.

C’est un sacré diagnostic. Et Forrest Chang a pris ce diagnostic pour en faire un simple fichier CLAUDE.md que vous pouvez déposer dans n’importe quel projet Claude Code.

Qu’est-ce que c’est

andrej-karpathy-skills est, au fond, un seul fichier. Il s’agit d’un fichier de configuration CLAUDE.md, distillé à partir des observations de Karpathy sur les pièges des LLM en programmation, et emballé comme un plugin Claude Code. Vous l’installez, il vit au niveau du projet ou de l’utilisateur, et il reprogramme la façon dont Claude Code se comporte sur les tâches où il est le plus susceptible de se tromper.

Les grands principes qu’il impose :

Exécution orientée objectif plutôt qu’instructions impératives. Au lieu de simplement « faire ce que l’utilisateur a dit », l’agent est incité à comprendre le but derrière l’instruction et à vérifier la réussite par rapport à ce but.
Modifications chirurgicales plutôt que réécritures massives. Lorsqu’on lui demande de corriger un bug, il corrige ce bug. Il ne refactore pas discrètement trois fichiers sans rapport au passage.
Mettre en avant les suppositions au lieu d’agir silencieusement dessus. S’il y a ambiguïté, il demande. S’il y a un compromis, il le nomme.
Définir des critères de réussite vérifiables. Ne pas simplement affirmer que quelque chose fonctionne. Exécuter ce qui prouve que cela fonctionne.

Rien de tout cela n’est révolutionnaire. Mais chacun fait la différence entre un agent qui vous fait gagner une heure et un agent qui vous en fait perdre trois.

Ce que j’ai testé

J’ai installé le plugin dans mon environnement Claude Code quotidien et j’ai suivi mon flux de travail habituel pendant une semaine — corrections de bugs, petites fonctionnalités, un peu de refactoring sur le site de la marque. Deux choses ont changé de façon notable.

Premièrement, le problème de refactoring excessif a nettement diminué. Je lui ai demandé de corriger un bug précis de cache dans un contrôleur Laravel. Avant le plugin, il aurait « utilement » aussi réécrit la signature de la méthode et déplacé trois lignes sans rapport. Après le plugin, il a corrigé le bug, n’a rien touché d’autre, et a expliqué pourquoi.

Deuxième point — et c’est le plus important — il a commencé à poser de meilleures questions. Quand je lui donnais des instructions ambiguës (volontairement, pour tester), au lieu de deviner et de foncer, il s’arrêtait et me demandait quelle interprétation je voulais. Ce simple changement de comportement justifie à lui seul l’installation.

L’honnête mise en garde

C’est un simple fichier de configuration, pas un framework. Il vaut ce que vaut le LLM qu’il façonne, et il ne peut pas corriger les limitations fondamentales du modèle — seulement les rendre plus visibles. Si vous utilisez Claude Code avec un modèle de base faible, ce plugin le rendra moins imprudent, pas plus intelligent. Si vous utilisez Claude Code avec un modèle de base solide, ce plugin est un vrai gain de productivité.

J’écris depuis un moment sur les compétences Claude Code et comment créer les vôtres, et c’est un excellent exemple d’une approche minimaliste. Cela prouve qu’un fichier de compétences vraiment bien écrit peut être plus précieux qu’un plugin complexe avec des outils personnalisés.

Le schéma sous-jacent aux six projets

Après une semaine de tests, je me suis assis pour essayer de comprendre ce que ces six projets avaient en commun, au-delà du simple fait d’être « open source » et « IA ». Voici ce que j’ai constaté.

Ils rejettent tous le monolithe. Google Edge Gallery affirme que l’IA n’a pas à résider dans un datacenter. DeepTutor montre que votre workflow d’apprentissage n’a pas à rester confiné dans une fenêtre de chat. Hermes démontre que la mémoire de votre agent n’a pas à être limitée à son prompt. Multica prouve que votre workflow multi-agent n’a pas à s’étaler sur six onglets de terminal. OpenScreen indique que vos outils créatifs n’ont pas à être enfermés derrière un abonnement. Et la skill Karpathy affirme que le cerveau de votre agent de code n’a pas à reposer sur l’espoir que le modèle comprenne tout du premier coup.

Chacun de ces projets s’attaque à une partie du modèle mental du « grand système d’IA qui fait tout » pour le fragmenter en éléments plus petits, plus spécialisés, plus ouverts. C’est ça, la vraie tendance. Pas un outil, un modèle ou un benchmark en particulier — mais la décomposition des workflows IA en modules que vous pouvez posséder, échanger, et exécuter vous-même.

Autre constat : la spécialisation assumée l’emporte sur la généralité passe-partout. Hermes surpasse les « clones Claude bourrés de prompts » non pas parce que son modèle est plus gros, mais parce qu’il a une vision claire de la mémoire. DeepTutor dépasse les « chats génériques avec PDF » parce qu’il a une vision claire de l’apprentissage. Le plugin Karpathy skills bat le Claude Code de base parce qu’il sait précisément où les LLM échouent. Dans un monde où chaque modèle fondation cherche à tout généraliser, les vraies victoires viennent des agents et outils qui assument une spécialisation tranchée, sans compromis.

Si vous construisez dans cet univers — même en solo — c’est la leçon que je collerais sur un post-it. Choisissez un point de vue. Soyez spécialisé. N’essayez pas de généraliser plus que les modèles fondation. Vous ne pouvez pas, et vous n’en avez pas besoin.

Ce que je fais avec tout ça

Voici mon plan honnête pour les deux prochaines semaines, au cas où cela vous serait utile.

Je prends l’architecture mémoire d’Hermes comme source d’inspiration et je reconstruis la couche mémoire dans ma propre stack d’agents — en particulier la séparation entre la mémoire de session, la mémoire persistante et la mémoire de compétences. La compétence Karpathy est déjà installée dans mon Claude Code quotidien, et je n’ai aucune intention de la désinstaller. J’ai Multica qui tourne sur une machine de développement pour une expérience où je fais fonctionner quatre agents de code en parallèle sur un vrai projet. Et je vais consacrer une soirée à lire le pipeline d’inférence de l’Edge Gallery, juste pour apprendre.

DeepTutor, je le garde sous le coude pour un cas d’usage précis : la prochaine fois que j’aurai besoin d’apprendre en profondeur un long document technique, c’est l’outil que j’utiliserai, plutôt qu’une énième session de chat cloud.

OpenScreen a déjà remplacé mon workflow d’enregistrement d’écran, ce qui — étant donné que j’écris beaucoup de tutoriels — est discrètement le plus gros gain de temps hebdomadaire de cette liste.

Votre défi pour le week-end, si vous en voulez un : choisissez le projet de cette liste qui correspond à un problème que vous avez déjà. Clonez-le. Faites-le tourner. Faites-le planter une fois. Revenez et décidez si vous le gardez. C’est tout. Un projet, un week-end, un vrai test.

Parce que ce que j’ai appris cette semaine — ce que je continue d’apprendre à chaque fois que je fais ce genre de plongée — c’est que lire sur des outils n’a rien à voir avec les faire tourner, et qu’aucun workflow n’a jamais changé juste en lisant un article de blog. Les projets de cette liste sont intéressants. Ce qui compte, c’est ce qui se passe après en avoir cloné un.

Allez, clonez quelque chose.

Foire aux questions

Quels sont les meilleurs projets d’IA open source sur GitHub en avril 2026 ?

Les projets d’IA open source les plus intéressants actuellement se répartissent entre l’inférence sur appareil (Google AI Edge Gallery, LiteRT-LM), la mémoire et l’orchestration d’agents (Hermes Agent, Multica), les workflows d’apprentissage (DeepTutor), les alternatives à Screen Studio (OpenScreen, Recordly), et les plugins de compétences Claude Code (andrej-karpathy-skills). Pour une analyse détaillée de l’importance de chacun, consultez les six présentations de projets ci-dessus.

Puis-je vraiment faire tourner un LLM sur mon téléphone sans internet ?

Oui. Google AI Edge Gallery, basé sur LiteRT-LM, exécute des petits LLM open-weight comme les variantes Gemma 4 entièrement en local sur iOS et Android. Les performances sont inférieures à l’inférence cloud et les modèles sont plus petits, mais pour des usages privés, hors-ligne et sensibles à la latence, c’est déjà prêt pour des workflows réels en production.

Hermes Agent est-il meilleur que Claude Code ou OpenClaw pour créer des agents IA ?

Ils répondent à des besoins différents. Claude Code et OpenClaw sont des environnements d’agents axés sur le code ; Hermes Agent est un framework d’agent généraliste doté d’un système de mémoire multi-niveaux spécialisé. Si vous construisez un agent personnel de longue durée qui doit se souvenir d’informations entre les sessions, l’architecture mémoire d’Hermes mérite d’être étudiée — consultez la section Hermes ci-dessus pour l’analyse complète.

Quelle est la meilleure alternative open source à Screen Studio ?

En avril 2026, OpenScreen est l’alternative open source originale à Screen Studio, tandis que Recordly est le fork le plus activement maintenu et le plus proche en termes de fonctionnalités. Open Recorder (Tauri + Rust) est l’option la plus légère. Les trois sont gratuits, sans abonnement, et conviennent à la plupart des workflows de tutoriels et de démonstrations.

Le plugin Karpathy Claude Code vaut-il la peine d’être installé ?

Pour les utilisateurs quotidiens de Claude Code, oui. Il s’agit d’un simple fichier de configuration qui impose des modifications de code chirurgicales, met en avant les hypothèses et réduit le problème de refactorisation excessive — ciblant précisément les écueils du codage LLM qu’Andrej Karpathy a maintes fois soulignés. C’est l’installation la plus simple et la plus rentable de cette liste.

Travaillons ensemble

Vous souhaitez développer des systèmes d’IA, automatiser des workflows ou faire évoluer votre infrastructure technologique ? Je serais ravi de vous accompagner.

Fiverr (développements sur mesure & intégrations) : fiverr.com/s/EgxYmWD
Portfolio : mejba.me
Ramlit Limited (solutions pour entreprises) : ramlit.com
ColorPark (design & branding) : colorpark.io
xCyberSecurity (services de cybersécurité) : xcybersecurity.io