Claude Fable 5 a créé une vidéo complète à partir d'un seul prompt

J'ai écrit un prompt. Je n'ai pas écrit de script. Je n'ai pas enregistré une seule seconde d'audio. Je n'ai ouvert ni HeyGen, ni ElevenLabs, ni un éditeur vidéo. Je n'ai pas touché à ffmpeg. Environ une heure plus tard, une vidéo YouTube terminée et prête à être mise en ligne se trouvait dans mon dossier de sortie — narrée avec ma propre voix, portée par un avatar qui bougeait comme moi, avec des motion graphics qui apparaissaient exactement au bon mot.

Le modèle qui a tout fait, c'est Claude Fable 5, le nouveau modèle de classe Mythos d'Anthropic, devenu disponible au grand public le 9 juin 2026. Et ce qui me revient sans cesse, trois jours après, ce n'est pas la qualité visuelle de la vidéo. C'est que tout le pipeline de production — la partie que j'orchestrais habituellement à la main à travers trois ou quatre outils — s'est effondré en une seule instruction donnée à un modèle qui a simplement... exécuté l'ensemble.

Je construis des pipelines vidéo IA depuis des mois. Je sais exactement combien de code de liaison, de logique de découpage et de supervision cela demande normalement. Alors quand je dis que cette exécution était différente, je ne réagis pas à une démo. Je réagis au fait d'avoir vu un modèle réaliser, de manière autonome, le travail d'orchestration que j'avais précédemment écrit à la main et décrit en détail dans mon build du pipeline vidéo HeyGen + ElevenLabs + Claude Code. Ce post est le compte rendu honnête de cette exécution — ce qu'elle a coûté, ce qu'elle a réellement fait, où elle n'est pas déterministe, et où je garderais quand même la main sur le volant.

Ce que "classe Mythos" signifie vraiment maintenant

Laissez-moi ancrer le modèle avant la vidéo, parce que le niveau de capacité est toute l'histoire.

Pendant la majeure partie de l'année dernière, "Mythos" était une rumeur puis une fuite. J'en ai parlé quand Anthropic a accidentellement exposé le modèle sous le nom de code Capabra — le contexte complet est dans mon analyse de la fuite de Claude Mythos. À l'époque, Mythos était un niveau au-dessus d'Opus que presque personne ne pouvait atteindre. Il était restreint à un petit groupe de partenaires de sécurité vérifiés et de cyberdéfenseurs.

Cela a changé le 9 juin. Anthropic a livré Claude Fable 5 comme le modèle de classe Mythos disponible publiquement — le même niveau de capacité sous-jacent, avec des garde-fous de sécurité pour la mise à disposition générale. (La variante entièrement déverrouillée, Claude Mythos 5, reste restreinte à un groupe restreint de partenaires en infrastructure et sécurité.) Selon le lancement d'Anthropic, Fable 5 est disponible aujourd'hui via l'API et sur les plans Enterprise basés sur la consommation, et il a été intégré aux plans Pro, Max et Team sans surcoût jusqu'au 22 juin.

Voici ce que ce niveau apporte, et pourquoi c'est important pour une tâche à horizon aussi long que la réalisation d'une vidéo :

Du code à une échelle que je n'avais jamais vue. L'annonce d'Anthropic décrit Fable 5 exécutant une migration complète sur une base de code Ruby d'environ 50 millions de lignes en une seule journée — un travail que l'entreprise présente comme prenant normalement plus de deux mois à une équipe. Je ne peux pas reproduire cette affirmation personnellement ; je n'ai pas de monolithe Ruby de 50M lignes sous la main. Mais ça vous indique le type de travail soutenu, en plusieurs étapes, que le modèle est capable de maintenir sans perdre le fil.
Une vision qui reconstruit, pas seulement qui décrit. Il peut reconstruire le code source d'applications web à partir de captures d'écran, et Anthropic l'a montré jouant à Pokémon Rouge Feu à partir de pixels bruts d'écran sans aide à la navigation.
Une mémoire à long horizon. C'est celle qui rend réellement la vidéo possible. Fable 5 utilise une mémoire basée sur les fichiers — il s'écrit des notes, les relit et maintient sa position au fil d'une longue tâche. Anthropic rapporte qu'il atteint l'acte final de Slay the Spire environ trois fois plus souvent que son prédécesseur, Opus 4.8. Une production vidéo est exactement ce type de marathon : des dizaines d'étapes dépendantes où oublier l'étape 4 ruine l'étape 19.

Ce mécanisme de mémoire mérite plus qu'un simple point, parce que c'est la différence entre "démo sympa" et "ça a réellement abouti." Une exécution vidéo complète ne tient pas dans une seule fenêtre de contexte — même pas une de 1M tokens. Quand le modèle rend des motion graphics à la phase quatre, le script qu'il a écrit à la phase un et les décisions de découpage de la phase deux sont à des milliers d'étapes derrière. Des choses aussi loin en arrière sont compressées, résumées, ou poussées hors de la fenêtre active. Avec un modèle normal, c'est là que tout déraille : il oublie que la carte statistique devait apparaître sur le mot "cinquante millions", ou il re-dérive une longueur de fragment qu'il avait déjà fixée, et le timing se décale.

Fable 5 contourne cela en traitant le système de fichiers comme mémoire au lieu de se fier uniquement à la fenêtre de contexte. En regardant ses logs, je pouvais le voir littéralement écrire des notes entre les phases — un fichier continu de décisions comme quels fragments audio correspondaient à quels clips d'avatar, quelles étaient les durées cibles, quel graphique se déclenchait à quelle marque temporelle. Puis, des phases plus tard, il relisait ces notes au lieu d'essayer de se souvenir. C'est le même truc qu'utilise un monteur humain : vous ne gardez pas toute la liste des décisions de montage en tête, vous maintenez un fichier de projet et vous le consultez. Le modèle a externalisé son propre état pour que le long horizon cesse d'être un problème de mémoire et devienne un problème de consultation. Pour tout ce qui est multiphase — pas seulement la vidéo, mais tout travail agentique qui s'étend au-delà de ce qu'une seule fenêtre de contexte peut contenir — c'est la capacité qui compte plus que le débit brut de tokens.

L'étiquette de prix est la partie que vous ne pouvez pas ignorer. Fable 5 fonctionne à environ 10 $ par million de tokens d'entrée et 50 $ par million de tokens de sortie — moins de la moitié de ce que coûtait le Mythos Preview, mais toujours le modèle frontier le plus cher en circulation générale actuellement. Retenez ce chiffre. Il devient toute la conversation "devriez-vous le faire" à la fin de ce post.

Voilà le moteur. Maintenant l'exécution.

Le prompt qui a remplacé tout mon pipeline

La configuration que je lui ai donnée était délibérément paresseuse, exprès. Je voulais voir combien je pouvais ne pas faire.

J'ai pointé Fable 5 vers la propre annonce de lancement de Fable 5 par Anthropic et je lui ai demandé de faire une vidéo YouTube expliquant la sortie — avec ma voix, mon format, prête à être mise en ligne. Je lui ai donné un playbook vocal (plus à ce sujet ci-dessous), mon contexte de marque, et une règle stricte que je continuerai de répéter : ne t'arrête pas tant que tu n'es pas 100 % confiant que le résultat est de haute qualité. Cette phrase a fait plus de travail que toute autre ligne du prompt.

Puis je l'ai laissé tourner.

Ce qu'il a fait ensuite est la partie qui réorganise ma façon de penser la "génération vidéo par IA". Il n'a pas généré une vidéo comme le fait un modèle texte-vers-vidéo — il n'y a pas eu de rendu magique unique. Au lieu de cela, il a exécuté une véritable production, le même pipeline en cinq étapes que je piloterais normalement à la main, sauf que ce n'était pas moi qui pilotais. Voici la séquence qu'il a exécutée.

1. Il a écrit le script — et a d'abord vérifié les faits

Avant d'écrire un seul mot de narration, Fable 5 a lu l'annonce complète d'Anthropic et a vérifié les affirmations par rapport à celle-ci. Puis il a écrit le script avec ma voix — pas une voix générique d'"explicateur IA", mais la mienne, tirée d'un playbook vocal que j'avais assemblé à partir de transcriptions de mes vidéos précédentes. Le rythme des phrases, ma façon d'ouvrir avec un chiffre, mon habitude de dire "voici la partie qui compte" — il a tout capté.

C'est le premier endroit où le niveau Mythos justifie son prix. La génération de scripts vidéo qui maintient une voix cohérente sur une longue pièce est en réalité une tâche à long horizon déguisée. Les modèles plus faibles dérivent — le troisième paragraphe sonne comme un auteur différent du huitième. Fable 5 est resté dans le personnage tout du long parce qu'il prenait littéralement des notes sur ses propres décisions stylistiques dans la mémoire basée sur les fichiers au fur et à mesure.

2. Il a synthétisé la voix par fragments pour éviter la dérive

Le script terminé est parti vers ElevenLabs pour l'audio via mon clone vocal. Et voici un détail que je trouve discrètement impressionnant : il n'a pas envoyé tout le script dans un seul appel API. Il a segmenté la narration en fragments de juste moins d'une minute avant de les envoyer.

Ce n'est pas arbitraire. Les clones vocaux instantanés d'ElevenLabs deviennent moins cohérents plus la demande s'éloigne du matériel de référence et plus la génération continue est longue — la cadence s'aplatit, des artefacts s'infiltrent. J'ai appris ça à mes dépens il y a des mois et j'ai codé en dur ~45–60 secondes de découpage dans mon pipeline manuel. Fable 5 est arrivé à la même contrainte tout seul et a découpé à peu près à la même longueur. Il a compris le mode de défaillance de l'outil en aval sans que je le précise.

3. Il a animé l'avatar avec HeyGen Avatar 5

Chaque fragment audio est allé vers HeyGen, rendu avec le tout dernier moteur de mouvement Avatar 5. Avatar 5 construit un jumeau photoréaliste à partir d'un clip de seulement 15 secondes et c'est la version qui a enfin corrigé l'aspect "plastique" — des mouvements de tête et de corps plus naturels, une synchronisation labiale plus précise, de vraies micro-expressions.

Il y a eu un élément d'autonomie véritablement intéressant ici. Plus tôt dans mes propres tests, Avatar 5 n'était pas entièrement exposé via l'API publique de HeyGen, j'ai donc dû automatiser un navigateur avec Playwright pour y accéder. Fable 5 a géré la lacune équivalente en pilotant lui-même l'automatisation du navigateur quand le chemin API était limité — et maintenant que HeyGen supporte le moteur plus récent plus directement, il est passé à l'appel direct. Il s'est adapté à la surface d'intégration au lieu d'échouer dessus.

4. Il a monté et construit chaque motion graphic en code

C'est ici que ça a cessé d'être "coller quelques clips ensemble" pour devenir du vrai montage.

Fable 5 a utilisé ffmpeg pour assembler les clips d'avatar. Mais les graphiques sont la partie sur laquelle je veux que vous vous attardiez : il a construit chaque motion graphic sous forme d'animations HTML codées avec GSAP (GreenSock — il continuait à l'appeler "Gap" dans ses propres logs, ce qui m'a fait rire) dans Hyperframes, le framework de rendu open-source de HeyGen. Si vous voulez la version approfondie de cette couche spécifique, j'ai documenté sa construction à partir d'un seul prompt dans mon tutoriel motion graphics Hyperframes depuis un prompt — Fable 5 a fait la même chose ici, mais comme une phase à l'intérieur d'une tâche autonome plus grande.

Les graphiques n'étaient pas décoratifs. Ils étaient synchronisés avec les mots prononcés — une carte statistique apparaissant à l'instant où la narration disait le chiffre, un label atterrissant sur le terme au moment où je le "disais". Pour réussir cela, le modèle a rendu des frames, les a examinés, a repéré ses propres erreurs de timing et de rendu, et a corrigé jusqu'à atteindre le seuil de qualité. Il faisait de la QA visuelle sur sa propre sortie.

5. Il a vérifié l'ensemble avec une QA multi-agent

La dernière phase était un workflow dynamique multi-agent : lancer des agents pour prendre des captures d'écran de la sortie rendue, vérifier visuellement que le contenu correspondait au script, contrôler que les graphiques se déclenchaient à temps, et confirmer que rien n'était cassé. Ce n'est qu'après cette passe qu'il a déclaré la vidéo terminée.

La sortie était une vidéo YouTube entièrement vérifiée et prête à être mise en ligne. Je l'ai regardée du début à la fin avant de toucher à quoi que ce soit. Elle était vraiment bonne.

Ce que ça a vraiment coûté : le reçu en tokens et en dollars

J'avais promis que le prix reviendrait. Le voici, avec les vrais chiffres de l'exécution.

Toute la production — du script à la vidéo terminée — a consommé environ 380 000 tokens. Le workflow complet s'est exécuté en environ une heure. Et en termes de budget de forfait, il a mangé environ 40 % d'un forfait à 200 $/mois en cette seule exécution.

Laissez-moi traduire ça, parce que les nombres de tokens sont abstraits et les dollars ne le sont pas. Au tarif de Fable 5 de 10 $ par million d'entrée et 50 $ par million de sortie, une exécution vidéo autonome d'une heure n'est pas une erreur d'arrondi. Si vous produisez une vidéo phare par semaine, le coût du modèle est réel mais défendable. Si vous essayez de pousser un volume quotidien de cette façon, vous le sentirez vite — et vous voudrez réfléchir sérieusement à quelles étapes ont vraiment besoin d'un raisonnement de classe Mythos et lesquelles pourraient tourner sur un modèle moins cher.

Voici l'évaluation honnête à laquelle je suis arrivé :

Gain rapide : Les économies de main-d'œuvre sont immédiates et énormes. Le temps humain après "go" était effectivement zéro. Pas de tournage, pas de session de montage, pas de rondes de révision. Rien que ça change l'économie de toute opération de contenu qui publie régulièrement des vidéos.
Le vrai coût : C'est du calcul, pas de la main-d'œuvre. Vous avez échangé la facture d'un monteur et quatre heures de votre propre temps de tournage contre une facture de tokens et un modèle qui est le plus cher du marché. Pour du travail professionnel à haute valeur ou haut volume, cet échange est une aubaine. Pour une chaîne hobby qui poste occasionnellement, c'est excessif — vous brûlerez le budget du forfait plus vite que vous ne le récupérerez.

Rendons le coût par vidéo concret, parce que "40 % d'un forfait" ne signifie quelque chose que si vous faites la multiplication. Une exécution c'était ~380K tokens et ~40 % d'un forfait de 200 $/mois, ce qui place le coût effectif de cette seule vidéo aux alentours de 80 $ de budget forfait. Exécutez-le aux prix bruts de l'API et la forme est similaire : 380K tokens orientés vers la sortie à 10 $/M d'entrée et 50 $/M de sortie atterrit dans la même fourchette d'environ 15 $–25 $ en pure inférence si la plupart de ces tokens sont de la sortie, avant de compter les tentatives et les passes de QA qui n'apparaissent pas toujours dans une estimation propre. Quoi qu'il en soit, comptez des dizaines de dollars par vidéo terminée, pas des centimes.

Maintenant mettez à l'échelle. Une vidéo phare par semaine c'est environ 1,6M tokens par mois — confortablement dans un forfait de 200 $ avec de la marge, et une évidence face à ce que facture un monteur. Passez à une vidéo par jour et vous êtes à ~11,4M tokens par mois rien que pour cette étape ; vous aurez épuisé un seul forfait de 200 $ en environ deux exécutions et vous paierez les tarifs API pour le reste. À trois vidéos par jour pour une équipe de contenu, la facture du modèle cesse d'être une note de bas de page et devient un poste que quelqu'un doit défendre en réunion budgétaire. C'est la vraie frontière de décision : Fable 5 de bout en bout est magnifique pour de la production à faible volume et haute valeur, et ça devient cher rapidement dès que "autonome" se transforme en "toujours allumé".

Si vous voulez une configuration optimisée pour garder ces coûts bas — choisir où dépenser du raisonnement de modèle frontier et où descendre vers quelque chose de moins cher — c'est exactement le type de travail d'architecture de pipeline que je propose via mon Fiverr. La logique d'orchestration est là où l'argent est économisé ou gaspillé.

Voilà les maths. Maintenant la partie que les démos de lancement ne vous diront pas.

La vérité : où ça casse et ce en quoi je ne fais pas encore confiance

Je vous rendrais un mauvais service si je m'arrêtais à "ça a fait une vidéo et c'était super." Trois choses de cette exécution méritent votre scepticisme.

Ce n'est pas déterministe, et c'est plus important que ça en a l'air. J'ai relancé le même prompt pour voir si j'obtiendrais la même vidéo. Non. Pas du tout à certains endroits. Le propre cadrage d'Anthropic le reconnaît : relancer un prompt identique peut ne pas reproduire la sortie, en partie parce que le système s'appuie sur des compétences et workflows préexistants qui ne sont pas totalement exposés ou verrouillés. Pour un one-shot créatif, pas de problème. Pour un processus de production répétable que vous voulez exécuter cent fois avec des résultats cohérents, le non-déterminisme est un vrai risque opérationnel. Vous ne pouvez pas encore traiter ça comme un script de build déterministe. Vous le traitez comme un prestataire très rapide et très compétent qui fait un excellent travail légèrement différent à chaque fois.

"Autonome" a toujours besoin d'une porte de qualité humaine. La sortie a passé la propre QA du modèle. Elle a quand même reçu ma revue avant que je ne l'aie publiée. La vérification multi-agent est vraiment bonne — elle attrape les rendus cassés et les décalages de timing — mais "le modèle est 100 % confiant" et "cela représente ma marque comme je le veux" ne sont pas le même standard. Ce seuil de confiance dans le prompt est ce qui a produit des résultats professionnels ; ce n'est pas un substitut au dernier regard humain.

La connaissance du découpage et de l'outillage est intégrée, et ça coupe dans les deux sens. Une partie de la raison pour laquelle ça a si bien marché est que le modèle "savait" déjà des choses comme le problème de dérive d'ElevenLabs et le flux de rendu d'Hyperframes. C'est super jusqu'à ce que vos outils changent. Quand ElevenLabs ou HeyGen livrent une mise à jour cassante, un workflow intégré peut faire en toute confiance l'ancienne chose. Le revers : la méthodologie n'est pas liée à Fable 5. La même approche pipeline s'adapte vers le bas à un modèle comme Sonnet pour les phases qui n'ont pas besoin de raisonnement frontier — et c'est exactement ainsi que vous maîtriseriez les coûts.

Ce que j'ai réellement dû surveiller. "Autonome" se lit plus proprement dans un titre que ce que j'ai ressenti en pratique. Le non-déterminisme n'était pas une réserve abstraite — il m'a mordu. Ma deuxième exécution a dérivé : elle a restructuré le script dans un ordre différent et re-temporisé des graphiques qui avaient parfaitement atterri la première fois, donc la version polie de la première exécution n'était pas quelque chose que je pouvais simplement régénérer à la demande. J'ai dû conserver la bonne sortie, pas faire confiance au processus pour la recréer. L'écart HeyGen était l'autre bord rugueux. Comme Avatar 5 n'était pas entièrement accessible via l'API publique lors de mes tests précédents, le modèle s'est rabattu sur le pilotage d'un navigateur pour faire le rendu — et l'automatisation de navigateur contre une application web en direct est exactement cette couche fragile, lente, du "est-ce que le bouton a bougé ?" que vous ne voulez pas dans un pipeline sans surveillance. Ça a marché, mais c'est le genre de chose qui casse silencieusement quand le markup du site change, et c'est pourquoi j'ai surveillé cette phase au lieu de m'en aller. Le support natif arrivant pour le moteur plus récent est ce qui a permis de passer à l'appel direct plus propre, et c'est un rappel de combien de cette "magie" repose sur des surfaces d'intégration que le modèle ne contrôle pas.

Une dernière note honnête : le plus grand levier de toute l'exécution n'était pas la puissance brute du modèle. C'était l'ingénierie de prompt intentionnelle — lui donner un contexte clair, un vrai playbook vocal, et un standard de qualité explicite et non négociable. L'instruction "arrête-toi seulement quand tu es 100 % confiant de la haute qualité" fait un travail de titan. Donnez à Fable 5 un prompt vague et vous obtiendrez une vidéo vague et chère. Le modèle récompense la précision à la mesure de son prix.

Alors devriez-vous vraiment faire ça ?

Voici mon avis direct après avoir vécu avec le résultat pendant quelques jours.

Si vous publiez des vidéos en volume professionnel — leçons de cours, explicatifs produit, une chaîne de contenu avec une vraie cadence — Claude Fable 5 change votre équation de production aujourd'hui. Pas l'année prochaine. Le goulot d'étranglement sur lequel je travaillais depuis des mois, où un humain devait encore orchestrer les outils même après que l'IA ait fait les parties difficiles, s'est déplacé. Un seul modèle tient maintenant tout le pipeline.

Si vous faites une vidéo occasionnelle pour le plaisir, c'est un magnifique excès. Utilisez plutôt la version moins chère, construite à la main — et franchement, continuez à filmer les choses qui sont vraiment vous. J'enregistre toujours mes vidéos YouTube personnelles moi-même. Ce pipeline est pour du contenu évolutif, pas pour les choses où ma présence réelle et non répétée est le point.

La frontière que cette exécution marque vraiment n'est pas "l'IA peut faire des vidéos." Nous avons du texte-vers-vidéo médiocre depuis deux ans. La frontière est un prompt, de bout en bout, entièrement autonome, sortie professionnelle — script, voix, avatar, montage et auto-QA, avec un humain qui n'écrit rien d'autre que le brief. C'est nouveau. Et ça pointe vers quelque chose de plus grand : une création multimédia IA de plus en plus autonome où le rôle humain se compresse à la direction et au jugement, et tout ce qui se trouve entre l'intention et le fichier terminé est géré par un modèle qui prend ses propres notes et vérifie son propre travail.

Questions fréquentes

Qu'est-ce que Claude Fable 5 ?

Claude Fable 5 est le premier modèle de classe Mythos disponible publiquement d'Anthropic, sorti le 9 juin 2026 — un niveau de capacité au-dessus de Claude Opus 4.8. Il dispose d'une fenêtre de contexte de 1M tokens, d'une mémoire à long horizon basée sur les fichiers, et de solides performances en vision et en programmation, à 10 $ par million de tokens d'entrée et 50 $ par million de tokens de sortie.

Claude Fable 5 peut-il vraiment faire une vidéo complète à partir d'un prompt ?

Oui — dans mon test, il a produit une vidéo YouTube complète et prête à être mise en ligne à partir d'un seul prompt en orchestrant son propre pipeline : génération de script, synthèse vocale ElevenLabs, animation HeyGen Avatar 5, montage ffmpeg, motion graphics GSAP dans Hyperframes, et QA visuelle multi-agent. La sortie n'est pas déterministe, donc relancer le même prompt ne reproduira pas la même vidéo.

Combien coûte la production d'une vidéo Claude Fable 5 ?

Mon exécution d'une heure a utilisé environ 380 000 tokens et consommé environ 40 % d'un forfait de 200 $/mois. À 10 $/50 $ par million de tokens d'entrée/sortie, c'est rentable pour de la vidéo professionnelle à haute valeur ou haut volume, mais cher pour un usage occasionnel ou de loisir. Les économies viennent de l'élimination du travail de tournage et de montage, pas d'un calcul bon marché.

Ce pipeline vidéo ne fonctionne-t-il qu'avec Claude Fable 5 ?

Non. La méthodologie s'adapte à d'autres modèles, dont Claude Sonnet, pour les phases qui ne nécessitent pas de raisonnement de niveau frontier. Pour la construction manuelle complète, voir mon guide du pipeline HeyGen + ElevenLabs + Claude Code ci-dessus — Fable 5 automatise l'orchestration que vous assembleriez autrement vous-même.

Pourquoi la sortie vidéo de Claude Fable 5 n'est-elle pas déterministe ?

Relancer le même prompt produit des vidéos différentes parce que le modèle s'appuie sur des compétences et workflows préexistants qui ne sont pas entièrement verrouillés ou exposés, plus la variance inhérente à la génération. Pour une production répétable à grande échelle, ce non-déterminisme est un risque opérationnel autour duquel vous devez planifier plutôt que l'ignorer.

Travaillons ensemble

Vous cherchez à construire des systèmes IA, automatiser des workflows ou faire évoluer votre infrastructure tech ? Ce serait un plaisir de vous aider.

Fiverr (builds sur mesure et intégrations) : fiverr.com/s/EgxYmWD
Portfolio : mejba.me
Ramlit Limited (solutions entreprise) : ramlit.com
ColorPark (design et branding) : colorpark.io
xCyberSecurity (services de sécurité) : xcybersecurity.io

Claude Fable 5 a créé une vidéo complète à partir d'un seul prompt