Documentation

Modèles AI de génération d'images et vidéos

Spécifications, syntaxe de prompt, paramètres et limites — Mars 2026

Part 1 — Modèles vidéo AI

Comparaison des principaux modèles de génération vidéo par intelligence artificielle disponibles en mars 2026.

Modèle	Résolution	Durée max	Audio	Prix	Point fort
Sora 2	1080p	25s (Pro)	Natif	~0.15$/sec	Physique cinématique
Kling 3.0	1080p	Multi-shot	Multi-personnages	0.07-0.14$/sec	Art house
Runway Gen-4.5	4K upscale	Variable	—	12$/mois+	N°1 benchmark
Veo 3.1	4K natif	8s	Lip-sync	Via Vertex AI	Meilleur lip-sync
Seedance 2.0	1080p	Variable	Audio-vidéo conjoint	Variable	Contrôle réalisateur
Pika 2.5	1080p	Variable	—	8$/mois	Outils spécialisés
Luma Ray3	4K HDR	Variable	—	Variable	Physique supérieure

Sora 2 (OpenAI)

1080p 25s max (Pro) ~0.15$/sec

Modèle phare d'OpenAI pour la génération vidéo avec audio natif intégré.

Forces

Physique cinématique exceptionnelle
Rendu style Disney/Pixar de haute qualité
Narration vidéo cohérente
Audio natif synchronisé

Limites

Pas de résolution 4K
Durée maximale de 25 secondes
Coût relativement élevé (~0.15$/sec)

Kling 3.0/2.6 (Kuaishou)

Multi-shot Audio multi-personnages 0.07-0.14$/sec

Solution chinoise avancée pour la création vidéo multi-shot avec audio multi-personnages.

Forces

Gestion multi-shot native
Audio multi-personnages
Esthétique art house distinctive
Prix compétitif (0.07-0.14$/sec)

Runway Gen-4.5

N°1 benchmark 4K upscale 12$/mois+

Leader des benchmarks de génération vidéo avec upscale 4K et Motion Brushes pour un contrôle précis.

Forces

N°1 dans les benchmarks de qualité
Upscale 4K disponible
Motion Brushes pour contrôle de mouvement
Écosystème professionnel complet

Veo 3.1 (Google)

4K natif Meilleur lip-sync Max 8s

Modèle Google avec résolution 4K native et le meilleur lip-sync du marché.

Forces

Résolution 4K native (pas d'upscale)
Meilleur lip-sync du marché
Fonctionnalité "Ingredients to Video"

Limites

Durée maximale de 8 secondes

Seedance 2.0 (ByteDance)

Audio-vidéo conjoint Contrôle réalisateur

Modèle ByteDance avec génération conjointe audio-vidéo et outils de contrôle de type réalisateur.

Forces

Génération audio-vidéo conjointe
Contrôle réalisateur avancé (angles, mouvements de caméra)
Bonne cohérence narrative

Pika 2.5

Outils spécialisés 8$/mois

Plateforme accessible avec des outils spécialisés uniques pour la manipulation vidéo.

Outils exclusifs

Pikaswaps — Remplacement d'éléments dans la vidéo
Pikaffects — Effets spéciaux appliqués en post
Pikaframes — Contrôle frame par frame

Luma Ray3

4K HDR Physique supérieure

Modèle avec rendu 4K HDR et simulation physique de pointe pour des résultats réalistes.

Forces

Résolution 4K HDR
Simulation physique supérieure (fluides, tissus, particules)
Éclairage naturel réaliste

Modèles open-source vidéo

Wan 2.6

Fonctionne avec seulement 8 GB VRAM
Idéal pour les machines grand public
Bon rapport qualité/ressources

LTX-2

4K à 50fps
Licence Apache 2.0 (usage commercial)
Architecture optimisée pour la vitesse

HunyuanVideo 1.5

Modèle Tencent open-source
Bonne qualité de génération
Communauté active

Part 2 — Modèles image AI

Comparaison des principaux modèles de génération d'images par intelligence artificielle.

Modèle	Force principale	Texte	Vitesse	Prix
Midjourney v7	N°1 esthétique	Bon	Rapide	10-60$/mois
GPT Image 1.5	N°1 compréhension sémantique	95%	Moyen	20$/mois
FLUX 1.1 Pro/2 Max	Photoréalisme	Bon	4.5s	~0.04$/image
Stable Diffusion 3.5	Open-source	Moyen	Variable	Gratuit
Ideogram 3.0	Typographie/Logos	90%	Rapide	7-20$/mois

Midjourney v7

N°1 esthétique 10-60$/mois

Le modèle de référence pour la qualité esthétique des images générées.

Paramètres clés

--ar — Ratio d'aspect (ex: 16:9, 3:2, 1:1)
--s — Stylisation (0-1000, défaut 100)
--sref — Référence de style (URL d'image)
--cref — Référence de personnage

Tarifs

Basic : 10$/mois — ~200 images
Standard : 30$/mois — illimité relax
Pro : 60$/mois — mode rapide étendu

GPT Image 1.5 (OpenAI)

N°1 compréhension sémantique Texte 95% 20$/mois

Le meilleur modèle pour la compréhension sémantique des prompts avec un rendu de texte quasi parfait à 95%.

Forces

Compréhension sémantique N°1 (prompts complexes et nuancés)
Rendu de texte dans les images : 95% de précision
Intégration native dans ChatGPT
Édition conversationnelle (modifier une image par le dialogue)

FLUX 1.1 Pro / 2 Max

Photoréalisme 4.5s/image ~0.04$/image

Modèle de Black Forest Labs, référence en photoréalisme avec un excellent rapport qualité/prix.

Forces

Photoréalisme de premier plan
Génération rapide (~4.5 secondes)
Coût très compétitif (~0.04$/image)
API accessible pour l'intégration

Stable Diffusion 3.5

Open-source Gratuit

Le modèle open-source de référence avec un écosystème riche de LoRA et ControlNet.

Forces

Entièrement open-source et gratuit
Écosystème LoRA pour le fine-tuning
ControlNet pour le contrôle de composition
Exécution locale possible
Communauté massive et active

Ideogram 3.0

Typographie/Logos Texte 90% 7-20$/mois

Spécialisé dans la typographie et la création de logos avec un rendu de texte à 90%.

Forces

Meilleur modèle pour la typographie
Création de logos professionnels
Rendu de texte fiable (90%)
Prix accessible (7-20$/mois)

Part 3 — Guide de prompting

Principes universels

Toujours rédiger en anglais — Tous les modèles sont optimisés pour l'anglais, même pour un usage francophone
Structure recommandée : Sujet > Action > Environnement > Éclairage > Style > Technique
Être spécifique plutôt que vague (ex: "golden hour sunlight" plutôt que "nice lighting")
Utiliser des références visuelles concrètes (noms de photographes, styles artistiques, films)
Itérer progressivement — commencer simple, puis affiner

Spécificités par modèle vidéo

Sora 2 — Excelle avec les descriptions narratives et les mouvements de caméra cinématiques
Kling 3.0 — Préciser les personnages et dialogues pour l'audio multi-personnages
Runway Gen-4.5 — Utiliser Motion Brushes pour guider le mouvement, combiner avec le texte
Veo 3.1 — Optimisé pour les descriptions courtes et précises (max 8s)
Pika 2.5 — Combiner prompt texte + outils Pikaswaps/Pikaffects pour plus de contrôle

Spécificités par modèle image

Midjourney v7 — Utiliser --ar, --s, --sref et --cref pour un contrôle maximal
GPT Image 1.5 — Prompts conversationnels détaillés, excellent pour les scènes complexes
FLUX — Prompts directs et descriptifs, axés sur le photoréalisme
Stable Diffusion 3.5 — Utiliser les tokens de poids (word:1.3) et les négatifs
Ideogram 3.0 — Mettre le texte souhaité entre guillemets dans le prompt

Part 4 — Recommandations

Tiers vidéo

Tier 1 — Premium

Runway Gen-4.5, Veo 3.1, Sora 2 — Pour les productions professionnelles exigeant la meilleure qualité

Tier 2 — Polyvalent

Kling 3.0, Seedance 2.0, Luma Ray3 — Excellent rapport qualité/prix pour la plupart des usages

Tier 3 — Accessible

Pika 2.5, Wan 2.6, LTX-2 — Budget limité ou expérimentation locale

Tiers image

Tier 1 — Premium

Midjourney v7, GPT Image 1.5 — Qualité maximale et contrôle avancé

Tier 2 — Polyvalent

FLUX 1.1 Pro/2 Max, Ideogram 3.0 — Spécialisés et compétitifs

Tier 3 — Open-source

Stable Diffusion 3.5 — Gratuit, personnalisable, exécution locale

Structure de prompt recommandée

 [Sujet] doing [Action]

in [Environnement]

with [Éclairage]

in the style of [Style/Référence]

shot on [Technique caméra/objectif]

Routage par cas d'usage

Vidéo narrative/cinématique → Sora 2 ou Runway Gen-4.5
Vidéo avec dialogue → Kling 3.0 (multi-personnages) ou Veo 3.1 (lip-sync)
Vidéo 4K → Veo 3.1 (natif) ou Luma Ray3 (HDR)
Vidéo budget → Pika 2.5 ou modèles open-source
Image esthétique → Midjourney v7
Image avec texte → Ideogram 3.0 ou GPT Image 1.5
Photo réaliste → FLUX 1.1 Pro/2 Max
Image personnalisée/locale → Stable Diffusion 3.5

Commencer gratuitement

Part 1 — Modèles vidéo AI

Sora 2 (OpenAI)

Kling 3.0/2.6 (Kuaishou)

Runway Gen-4.5

Veo 3.1 (Google)

Seedance 2.0 (ByteDance)

Pika 2.5

Luma Ray3

Modèles open-source vidéo

Part 2 — Modèles image AI

Midjourney v7

GPT Image 1.5 (OpenAI)

FLUX 1.1 Pro / 2 Max

Stable Diffusion 3.5

Ideogram 3.0

Part 3 — Guide de prompting

Part 4 — Recommandations