Modèles AI de génération d'images et vidéos
Spécifications, syntaxe de prompt, paramètres et limites — Mars 2026
Part 1 — Modèles vidéo AI
Comparaison des principaux modèles de génération vidéo par intelligence artificielle disponibles en mars 2026.
| Modèle | Résolution | Durée max | Audio | Prix | Point fort |
|---|---|---|---|---|---|
| Sora 2 | 1080p | 25s (Pro) | Natif | ~0.15$/sec | Physique cinématique |
| Kling 3.0 | 1080p | Multi-shot | Multi-personnages | 0.07-0.14$/sec | Art house |
| Runway Gen-4.5 | 4K upscale | Variable | — | 12$/mois+ | N°1 benchmark |
| Veo 3.1 | 4K natif | 8s | Lip-sync | Via Vertex AI | Meilleur lip-sync |
| Seedance 2.0 | 1080p | Variable | Audio-vidéo conjoint | Variable | Contrôle réalisateur |
| Pika 2.5 | 1080p | Variable | — | 8$/mois | Outils spécialisés |
| Luma Ray3 | 4K HDR | Variable | — | Variable | Physique supérieure |
Sora 2 (OpenAI)
Modèle phare d'OpenAI pour la génération vidéo avec audio natif intégré.
Forces
- Physique cinématique exceptionnelle
- Rendu style Disney/Pixar de haute qualité
- Narration vidéo cohérente
- Audio natif synchronisé
Limites
- Pas de résolution 4K
- Durée maximale de 25 secondes
- Coût relativement élevé (~0.15$/sec)
Kling 3.0/2.6 (Kuaishou)
Solution chinoise avancée pour la création vidéo multi-shot avec audio multi-personnages.
Forces
- Gestion multi-shot native
- Audio multi-personnages
- Esthétique art house distinctive
- Prix compétitif (0.07-0.14$/sec)
Runway Gen-4.5
Leader des benchmarks de génération vidéo avec upscale 4K et Motion Brushes pour un contrôle précis.
Forces
- N°1 dans les benchmarks de qualité
- Upscale 4K disponible
- Motion Brushes pour contrôle de mouvement
- Écosystème professionnel complet
Veo 3.1 (Google)
Modèle Google avec résolution 4K native et le meilleur lip-sync du marché.
Forces
- Résolution 4K native (pas d'upscale)
- Meilleur lip-sync du marché
- Fonctionnalité "Ingredients to Video"
Limites
- Durée maximale de 8 secondes
Seedance 2.0 (ByteDance)
Modèle ByteDance avec génération conjointe audio-vidéo et outils de contrôle de type réalisateur.
Forces
- Génération audio-vidéo conjointe
- Contrôle réalisateur avancé (angles, mouvements de caméra)
- Bonne cohérence narrative
Pika 2.5
Plateforme accessible avec des outils spécialisés uniques pour la manipulation vidéo.
Outils exclusifs
- Pikaswaps — Remplacement d'éléments dans la vidéo
- Pikaffects — Effets spéciaux appliqués en post
- Pikaframes — Contrôle frame par frame
Luma Ray3
Modèle avec rendu 4K HDR et simulation physique de pointe pour des résultats réalistes.
Forces
- Résolution 4K HDR
- Simulation physique supérieure (fluides, tissus, particules)
- Éclairage naturel réaliste
Modèles open-source vidéo
Wan 2.6
- Fonctionne avec seulement 8 GB VRAM
- Idéal pour les machines grand public
- Bon rapport qualité/ressources
LTX-2
- 4K à 50fps
- Licence Apache 2.0 (usage commercial)
- Architecture optimisée pour la vitesse
HunyuanVideo 1.5
- Modèle Tencent open-source
- Bonne qualité de génération
- Communauté active
Part 2 — Modèles image AI
Comparaison des principaux modèles de génération d'images par intelligence artificielle.
| Modèle | Force principale | Texte | Vitesse | Prix |
|---|---|---|---|---|
| Midjourney v7 | N°1 esthétique | Bon | Rapide | 10-60$/mois |
| GPT Image 1.5 | N°1 compréhension sémantique | 95% | Moyen | 20$/mois |
| FLUX 1.1 Pro/2 Max | Photoréalisme | Bon | 4.5s | ~0.04$/image |
| Stable Diffusion 3.5 | Open-source | Moyen | Variable | Gratuit |
| Ideogram 3.0 | Typographie/Logos | 90% | Rapide | 7-20$/mois |
Midjourney v7
Le modèle de référence pour la qualité esthétique des images générées.
Paramètres clés
--ar— Ratio d'aspect (ex: 16:9, 3:2, 1:1)--s— Stylisation (0-1000, défaut 100)--sref— Référence de style (URL d'image)--cref— Référence de personnage
Tarifs
- Basic : 10$/mois — ~200 images
- Standard : 30$/mois — illimité relax
- Pro : 60$/mois — mode rapide étendu
GPT Image 1.5 (OpenAI)
Le meilleur modèle pour la compréhension sémantique des prompts avec un rendu de texte quasi parfait à 95%.
Forces
- Compréhension sémantique N°1 (prompts complexes et nuancés)
- Rendu de texte dans les images : 95% de précision
- Intégration native dans ChatGPT
- Édition conversationnelle (modifier une image par le dialogue)
FLUX 1.1 Pro / 2 Max
Modèle de Black Forest Labs, référence en photoréalisme avec un excellent rapport qualité/prix.
Forces
- Photoréalisme de premier plan
- Génération rapide (~4.5 secondes)
- Coût très compétitif (~0.04$/image)
- API accessible pour l'intégration
Stable Diffusion 3.5
Le modèle open-source de référence avec un écosystème riche de LoRA et ControlNet.
Forces
- Entièrement open-source et gratuit
- Écosystème LoRA pour le fine-tuning
- ControlNet pour le contrôle de composition
- Exécution locale possible
- Communauté massive et active
Ideogram 3.0
Spécialisé dans la typographie et la création de logos avec un rendu de texte à 90%.
Forces
- Meilleur modèle pour la typographie
- Création de logos professionnels
- Rendu de texte fiable (90%)
- Prix accessible (7-20$/mois)
Part 3 — Guide de prompting
Principes universels
- Toujours rédiger en anglais — Tous les modèles sont optimisés pour l'anglais, même pour un usage francophone
- Structure recommandée : Sujet > Action > Environnement > Éclairage > Style > Technique
- Être spécifique plutôt que vague (ex: "golden hour sunlight" plutôt que "nice lighting")
- Utiliser des références visuelles concrètes (noms de photographes, styles artistiques, films)
- Itérer progressivement — commencer simple, puis affiner
Spécificités par modèle vidéo
- Sora 2 — Excelle avec les descriptions narratives et les mouvements de caméra cinématiques
- Kling 3.0 — Préciser les personnages et dialogues pour l'audio multi-personnages
- Runway Gen-4.5 — Utiliser Motion Brushes pour guider le mouvement, combiner avec le texte
- Veo 3.1 — Optimisé pour les descriptions courtes et précises (max 8s)
- Pika 2.5 — Combiner prompt texte + outils Pikaswaps/Pikaffects pour plus de contrôle
Spécificités par modèle image
- Midjourney v7 — Utiliser --ar, --s, --sref et --cref pour un contrôle maximal
- GPT Image 1.5 — Prompts conversationnels détaillés, excellent pour les scènes complexes
- FLUX — Prompts directs et descriptifs, axés sur le photoréalisme
- Stable Diffusion 3.5 — Utiliser les tokens de poids (word:1.3) et les négatifs
- Ideogram 3.0 — Mettre le texte souhaité entre guillemets dans le prompt
Part 4 — Recommandations
Tiers vidéo
Runway Gen-4.5, Veo 3.1, Sora 2 — Pour les productions professionnelles exigeant la meilleure qualité
Kling 3.0, Seedance 2.0, Luma Ray3 — Excellent rapport qualité/prix pour la plupart des usages
Pika 2.5, Wan 2.6, LTX-2 — Budget limité ou expérimentation locale
Tiers image
Midjourney v7, GPT Image 1.5 — Qualité maximale et contrôle avancé
FLUX 1.1 Pro/2 Max, Ideogram 3.0 — Spécialisés et compétitifs
Stable Diffusion 3.5 — Gratuit, personnalisable, exécution locale
Structure de prompt recommandée
in [Environnement]
with [Éclairage]
in the style of [Style/Référence]
shot on [Technique caméra/objectif]
Routage par cas d'usage
- Vidéo narrative/cinématique → Sora 2 ou Runway Gen-4.5
- Vidéo avec dialogue → Kling 3.0 (multi-personnages) ou Veo 3.1 (lip-sync)
- Vidéo 4K → Veo 3.1 (natif) ou Luma Ray3 (HDR)
- Vidéo budget → Pika 2.5 ou modèles open-source
- Image esthétique → Midjourney v7
- Image avec texte → Ideogram 3.0 ou GPT Image 1.5
- Photo réaliste → FLUX 1.1 Pro/2 Max
- Image personnalisée/locale → Stable Diffusion 3.5