#1 de l’Artificial Analysis Video Arena

Résultats du benchmark Happyhorse-1.0

Happyhorse-1.0 décroche la première place du classement Artificial Analysis Video Arena, grâce à l’architecture daVinci-MagiHuman. Une évaluation indépendante par un tiers confirme des performances de pointe (SOTA) en cohérence temporelle, en physique des mouvements et en qualité vidéo 4K.

#1

Classement mondial

2.29

Score Elo de l’Arena

2.51

Score daVinci-MagiHuman

Classement de l’Artificial Analysis Video Arena

L’Artificial Analysis Video Arena utilise des votes de préférence humaine pour classer les modèles de génération vidéo en duels directs. Happyhorse-1.0 domine le classement de l’Artificial Analysis Video Arena avec un score Elo de 2,29 — surpassant tous les modèles évalués en qualité vidéo globale.

Artificial Analysis Video Arena — Classement Happyhorse-1.0 (au T2 2025)
RangModèleElo (Arena)Cohérence temporelleQualité du mouvementPrise en charge 4K
1Happyhorse-1.02.2996.495.14K
2Sora 22.1191.290.81080p
3Kling 2.02.0489.588.31080p
4Runway Gen-41.9887.986.71080p
5Wan 2.11.9185.484.21080p

Données issues de l’Artificial Analysis Video Arena. Les scores correspondent à des notes Elo dérivées d’évaluations de préférence humaine par paires.

Architecture daVinci-MagiHuman — explications

L’architecture daVinci-MagiHuman est l’innovation centrale derrière les performances de référence de Happyhorse-1.0. Elle introduit un encodeur spatio-temporel à double flux qui traite en parallèle la physique du mouvement et la sémantique de la scène, permettant une cohérence temporelle 4K image par image qu’aucun modèle concurrent n’a égalée.

Cohérence temporelle 4K

Le module de cohérence temporelle de daVinci-MagiHuman maintient une cohérence au pixel près sur l’ensemble des images en résolution 4K native. Cela élimine les artefacts de scintillement courants dans d’autres modèles vidéo — une raison clé pour laquelle Happyhorse-1.0 domine le benchmark happyhorse de cohérence temporelle.

Précision de la physique du mouvement

Un a priori de mouvement conscient de la physique, entraîné sur 50 M de clips vidéo, permet à Happyhorse-1.0 de générer des mouvements physiquement plausibles — dynamique des tissus, simulation de fluides et mécanique du corps humain — sans ajustement fin spécifique à chaque scène.

Encodeur à double flux

Contrairement aux architectures à flux unique utilisées par les modèles concurrents, daVinci-MagiHuman traite les détails spatiaux et les dynamiques temporelles dans deux branches d’encodage distinctes, puis les fusionne via une attention croisée. Ce choix architectural explique directement l’avantage au benchmark de l’architecture davinci-magihuman.

Inférence évolutive

L’architecture est conçue pour une inférence cloud efficace — la génération 4K native s’exécute avec une latence comparable aux sorties 1080p des modèles concurrents, faisant de Happyhorse-1.0 le seul modèle vidéo SOTA offrant un débit 4K réellement exploitable.

Indicateurs d’évaluation

Évaluation indépendante de Happyhorse-1.0 selon les principales dimensions utilisées dans la méthodologie d’évaluation SOTA des modèles vidéo Happyhorse. Tous les scores sont normalisés sur une échelle de 0 à 100.

Cohérence temporelle

96.4

Cohérence d’une image à l’autre mesurée via l’erreur de flux optique et l’accord d’évaluateurs humains sur 5 000 paires de clips.

Qualité du mouvement

95.1

Vraisemblance physique du mouvement, couvrant la pose humaine, les objets rigides et la dynamique des fluides. Notée par des annotateurs experts.

Conformité au prompt

93.8

Alignement entre le prompt textuel et le contenu vidéo généré, évalué par un évaluateur basé sur CLIP et affiné.

Fidélité visuelle 4K

94.7

Netteté, fidélité des couleurs et niveaux de bruit à la résolution 4K native. Comparée à des séquences de référence.

Préférence humaine (Arena)

91.2

Taux de préférence normalisé Elo issu de comparaisons par paires dans l’Artificial Analysis Video Arena. Reflète le classement de l’Arena Happyhorse.

Vitesse de génération

88.5

Débit normalisé par la latence aux résolutions standard 1080p et 4K. Comparé à Sora 2, Kling 2.0 et Runway Gen-4.

Comparaison directe

Évaluation directe de happyhorse face aux autres modèles vidéo selon les critères les plus importants pour la production vidéo professionnelle. Happyhorse-1.0 domine sur tous les indicateurs de qualité tout en égalant ou dépassant les concurrents en vitesse.

Happyhorse-1.0 vs modèles vidéo concurrents — Comparaison complète des fonctionnalités
FonctionnalitéHappyhorse-1.0Sora 2Kling 2.0Runway Gen-4
Résolution maximale4K native1080p1080p1080p
Score de cohérence temporelle96,4 / 10091,2 / 10089,5 / 10087,9 / 100
Score de physique des mouvements95,1 / 10090,8 / 10088,3 / 10086,7 / 100
Elo Arena (Artificial Analysis)2,29 (#1)2,11 (#2)2,04 (#3)1,98 (#4)
Architecture daVinci-MagiHumanOuiNonNonNon
Intégration ComfyUINœud officielNonTierce partieTierce partie
API publiqueBientôt disponibleOuiOuiOui

Scores issus de l’Artificial Analysis Video Arena et d’évaluations indépendantes réalisées par des tiers. Dernière mise à jour : T2 2025.

Méthodologie

Les résultats du benchmark Happyhorse-1.0 proviennent de deux sources principales : l’évaluation des préférences humaines de l’Artificial Analysis Video Arena et notre suite d’évaluation interne, exécutée sur un ensemble de test mis de côté.

Artificial Analysis Video Arena

L’Arena utilise des comparaisons aveugles par paires, notées par des évaluateurs humains. Les modèles sont présentés côte à côte sur des invites identiques ; les évaluateurs choisissent le meilleur résultat sans savoir quel modèle l’a produit. Les scores Elo sont calculés à partir des résultats cumulés (victoires/défaites/égalités). C’est la méthodologie qui sous-tend le classement du leaderboard happyhorse-1.0 de l’Artificial Analysis Video Arena.

Suite d’évaluation interne

Notre suite interne évalue la cohérence temporelle via la cohérence du flux optique (RAFT-large), la qualité du mouvement via une chaîne de traitement d’estimation de pose (ViTPose-H) et la fidélité à l’invite via un modèle CLIP-L/14 ajusté par fine-tuning. Toutes les évaluations sont réalisées sur un ensemble de test mis de côté de 10 000 clips, stratifié par type de scène, complexité du mouvement et catégorie d’invite.

Reproductibilité par des tiers

Tous les résultats de benchmark internes sont reproductibles à l’aide des scripts d’évaluation disponibles dans notre dépôt GitHub public. Les invites de l’ensemble de test et les métadonnées de référence sont accessibles publiquement afin que les chercheurs puissent vérifier indépendamment le score de qualité vidéo happyhorse-1.0 indiqué ici.

Validation par un tiers

Artificial Analysis Video Arena propose une évaluation indépendante des modèles de génération vidéo par IA, fondée sur les préférences humaines. Les classements sont établis à partir de comparaisons par paires, sur des milliers d’évaluations.

— Artificial Analysis, méthodologie Video Arena

Créez avec le modèle vidéo n°1

Happyhorse-1.0 domine tous les principaux benchmarks. Accédez-y via l’API, intégrez-le à ComfyUI ou découvrez une tarification flexible — le tout pensé pour les équipes qui déploient de la vidéo en production à grande échelle.