Documentation

Modèles AI de génération d'images et vidéos

Spécifications, syntaxe de prompt, paramètres et limites — Mars 2026

Part 1 — Modèles vidéo AI

Comparaison des principaux modèles de génération vidéo par intelligence artificielle disponibles en mars 2026.

Modèle Résolution Durée max Audio Prix Point fort
Sora 21080p25s (Pro)Natif~0.15$/secPhysique cinématique
Kling 3.01080pMulti-shotMulti-personnages0.07-0.14$/secArt house
Runway Gen-4.54K upscaleVariable12$/mois+N°1 benchmark
Veo 3.14K natif8sLip-syncVia Vertex AIMeilleur lip-sync
Seedance 2.01080pVariableAudio-vidéo conjointVariableContrôle réalisateur
Pika 2.51080pVariable8$/moisOutils spécialisés
Luma Ray34K HDRVariableVariablePhysique supérieure

Sora 2 (OpenAI)

1080p 25s max (Pro) ~0.15$/sec

Modèle phare d'OpenAI pour la génération vidéo avec audio natif intégré.

Forces

  • Physique cinématique exceptionnelle
  • Rendu style Disney/Pixar de haute qualité
  • Narration vidéo cohérente
  • Audio natif synchronisé

Limites

  • Pas de résolution 4K
  • Durée maximale de 25 secondes
  • Coût relativement élevé (~0.15$/sec)

Kling 3.0/2.6 (Kuaishou)

Multi-shot Audio multi-personnages 0.07-0.14$/sec

Solution chinoise avancée pour la création vidéo multi-shot avec audio multi-personnages.

Forces

  • Gestion multi-shot native
  • Audio multi-personnages
  • Esthétique art house distinctive
  • Prix compétitif (0.07-0.14$/sec)

Runway Gen-4.5

N°1 benchmark 4K upscale 12$/mois+

Leader des benchmarks de génération vidéo avec upscale 4K et Motion Brushes pour un contrôle précis.

Forces

  • N°1 dans les benchmarks de qualité
  • Upscale 4K disponible
  • Motion Brushes pour contrôle de mouvement
  • Écosystème professionnel complet

Veo 3.1 (Google)

4K natif Meilleur lip-sync Max 8s

Modèle Google avec résolution 4K native et le meilleur lip-sync du marché.

Forces

  • Résolution 4K native (pas d'upscale)
  • Meilleur lip-sync du marché
  • Fonctionnalité "Ingredients to Video"

Limites

  • Durée maximale de 8 secondes

Seedance 2.0 (ByteDance)

Audio-vidéo conjoint Contrôle réalisateur

Modèle ByteDance avec génération conjointe audio-vidéo et outils de contrôle de type réalisateur.

Forces

  • Génération audio-vidéo conjointe
  • Contrôle réalisateur avancé (angles, mouvements de caméra)
  • Bonne cohérence narrative

Pika 2.5

Outils spécialisés 8$/mois

Plateforme accessible avec des outils spécialisés uniques pour la manipulation vidéo.

Outils exclusifs

  • Pikaswaps — Remplacement d'éléments dans la vidéo
  • Pikaffects — Effets spéciaux appliqués en post
  • Pikaframes — Contrôle frame par frame

Luma Ray3

4K HDR Physique supérieure

Modèle avec rendu 4K HDR et simulation physique de pointe pour des résultats réalistes.

Forces

  • Résolution 4K HDR
  • Simulation physique supérieure (fluides, tissus, particules)
  • Éclairage naturel réaliste

Modèles open-source vidéo

Wan 2.6

  • Fonctionne avec seulement 8 GB VRAM
  • Idéal pour les machines grand public
  • Bon rapport qualité/ressources

LTX-2

  • 4K à 50fps
  • Licence Apache 2.0 (usage commercial)
  • Architecture optimisée pour la vitesse

HunyuanVideo 1.5

  • Modèle Tencent open-source
  • Bonne qualité de génération
  • Communauté active

Part 2 — Modèles image AI

Comparaison des principaux modèles de génération d'images par intelligence artificielle.

Modèle Force principale Texte Vitesse Prix
Midjourney v7N°1 esthétiqueBonRapide10-60$/mois
GPT Image 1.5N°1 compréhension sémantique95%Moyen20$/mois
FLUX 1.1 Pro/2 MaxPhotoréalismeBon4.5s~0.04$/image
Stable Diffusion 3.5Open-sourceMoyenVariableGratuit
Ideogram 3.0Typographie/Logos90%Rapide7-20$/mois

Midjourney v7

N°1 esthétique 10-60$/mois

Le modèle de référence pour la qualité esthétique des images générées.

Paramètres clés

  • --ar — Ratio d'aspect (ex: 16:9, 3:2, 1:1)
  • --s — Stylisation (0-1000, défaut 100)
  • --sref — Référence de style (URL d'image)
  • --cref — Référence de personnage

Tarifs

  • Basic : 10$/mois — ~200 images
  • Standard : 30$/mois — illimité relax
  • Pro : 60$/mois — mode rapide étendu

GPT Image 1.5 (OpenAI)

N°1 compréhension sémantique Texte 95% 20$/mois

Le meilleur modèle pour la compréhension sémantique des prompts avec un rendu de texte quasi parfait à 95%.

Forces

  • Compréhension sémantique N°1 (prompts complexes et nuancés)
  • Rendu de texte dans les images : 95% de précision
  • Intégration native dans ChatGPT
  • Édition conversationnelle (modifier une image par le dialogue)

FLUX 1.1 Pro / 2 Max

Photoréalisme 4.5s/image ~0.04$/image

Modèle de Black Forest Labs, référence en photoréalisme avec un excellent rapport qualité/prix.

Forces

  • Photoréalisme de premier plan
  • Génération rapide (~4.5 secondes)
  • Coût très compétitif (~0.04$/image)
  • API accessible pour l'intégration

Stable Diffusion 3.5

Open-source Gratuit

Le modèle open-source de référence avec un écosystème riche de LoRA et ControlNet.

Forces

  • Entièrement open-source et gratuit
  • Écosystème LoRA pour le fine-tuning
  • ControlNet pour le contrôle de composition
  • Exécution locale possible
  • Communauté massive et active

Ideogram 3.0

Typographie/Logos Texte 90% 7-20$/mois

Spécialisé dans la typographie et la création de logos avec un rendu de texte à 90%.

Forces

  • Meilleur modèle pour la typographie
  • Création de logos professionnels
  • Rendu de texte fiable (90%)
  • Prix accessible (7-20$/mois)

Part 3 — Guide de prompting

Principes universels

  • Toujours rédiger en anglais — Tous les modèles sont optimisés pour l'anglais, même pour un usage francophone
  • Structure recommandée : Sujet > Action > Environnement > Éclairage > Style > Technique
  • Être spécifique plutôt que vague (ex: "golden hour sunlight" plutôt que "nice lighting")
  • Utiliser des références visuelles concrètes (noms de photographes, styles artistiques, films)
  • Itérer progressivement — commencer simple, puis affiner

Spécificités par modèle vidéo

  • Sora 2 — Excelle avec les descriptions narratives et les mouvements de caméra cinématiques
  • Kling 3.0 — Préciser les personnages et dialogues pour l'audio multi-personnages
  • Runway Gen-4.5 — Utiliser Motion Brushes pour guider le mouvement, combiner avec le texte
  • Veo 3.1 — Optimisé pour les descriptions courtes et précises (max 8s)
  • Pika 2.5 — Combiner prompt texte + outils Pikaswaps/Pikaffects pour plus de contrôle

Spécificités par modèle image

  • Midjourney v7 — Utiliser --ar, --s, --sref et --cref pour un contrôle maximal
  • GPT Image 1.5 — Prompts conversationnels détaillés, excellent pour les scènes complexes
  • FLUX — Prompts directs et descriptifs, axés sur le photoréalisme
  • Stable Diffusion 3.5 — Utiliser les tokens de poids (word:1.3) et les négatifs
  • Ideogram 3.0 — Mettre le texte souhaité entre guillemets dans le prompt

Part 4 — Recommandations

Tiers vidéo

Tier 1 — Premium

Runway Gen-4.5, Veo 3.1, Sora 2 — Pour les productions professionnelles exigeant la meilleure qualité

Tier 2 — Polyvalent

Kling 3.0, Seedance 2.0, Luma Ray3 — Excellent rapport qualité/prix pour la plupart des usages

Tier 3 — Accessible

Pika 2.5, Wan 2.6, LTX-2 — Budget limité ou expérimentation locale

Tiers image

Tier 1 — Premium

Midjourney v7, GPT Image 1.5 — Qualité maximale et contrôle avancé

Tier 2 — Polyvalent

FLUX 1.1 Pro/2 Max, Ideogram 3.0 — Spécialisés et compétitifs

Tier 3 — Open-source

Stable Diffusion 3.5 — Gratuit, personnalisable, exécution locale

Structure de prompt recommandée

[Sujet] doing [Action]
in [Environnement]
with [Éclairage]
in the style of [Style/Référence]
shot on [Technique caméra/objectif]

Routage par cas d'usage

  • Vidéo narrative/cinématique → Sora 2 ou Runway Gen-4.5
  • Vidéo avec dialogue → Kling 3.0 (multi-personnages) ou Veo 3.1 (lip-sync)
  • Vidéo 4K → Veo 3.1 (natif) ou Luma Ray3 (HDR)
  • Vidéo budget → Pika 2.5 ou modèles open-source
  • Image esthétique → Midjourney v7
  • Image avec texte → Ideogram 3.0 ou GPT Image 1.5
  • Photo réaliste → FLUX 1.1 Pro/2 Max
  • Image personnalisée/locale → Stable Diffusion 3.5