#1 nell’Artificial Analysis Video Arena

Risultati del benchmark Happyhorse-1.0

Happyhorse-1.0 conquista la prima posizione nella classifica dell’Artificial Analysis Video Arena, basato sull’architettura daVinci-MagiHuman. Una valutazione indipendente di terze parti conferma prestazioni allo stato dell’arte in coerenza temporale, fisica del movimento e qualità video 4K.

#1

Posizione globale

2.29

Punteggio Elo dell’Arena

2.51

Punteggio daVinci-MagiHuman

Classifica dell’Arena Video di Artificial Analysis

L’Arena Video di Artificial Analysis utilizza votazioni basate sulle preferenze umane per classificare i modelli di generazione video in confronti diretti. Happyhorse-1.0 è in testa alla classifica dell’Arena Video di Artificial Analysis con un punteggio Elo di 2,29, superando tutti i modelli valutati per qualità video complessiva.

Arena Video di Artificial Analysis — Classifica di Happyhorse-1.0 (al Q2 2025)
PosizioneModelloElo dell’ArenaCoerenza temporaleQualità del movimentoSupporto 4K
1Happyhorse-1.02.2996.495.14K
2Sora 22.1191.290.81080p
3Kling 2.02.0489.588.31080p
4Runway Gen-41.9887.986.71080p
5Wan 2.11.9185.484.21080p

Dati provenienti dall’Arena Video di Artificial Analysis. I punteggi rappresentano valutazioni Elo derivate da confronti a coppie basati sulle preferenze umane.

Architettura daVinci-MagiHuman spiegata

L’architettura daVinci-MagiHuman è l’innovazione centrale alla base delle prestazioni da benchmark leader di Happyhorse-1.0. Introduce un encoder spaziotemporale a doppio flusso che elabora in parallelo la fisica del movimento e la semantica della scena, consentendo una coerenza temporale 4K impeccabile fotogramma per fotogramma, che nessun modello concorrente è riuscito a eguagliare.

Coerenza temporale 4K

Il modulo di coerenza temporale di daVinci-MagiHuman mantiene la consistenza per pixel su tutti i fotogrammi alla risoluzione nativa 4K. Questo elimina gli artefatti di sfarfallio comuni in altri modelli video — uno dei motivi chiave per cui Happyhorse-1.0 guida il benchmark di coerenza temporale di happyhorse.

Accuratezza della fisica del movimento

Un prior sul movimento basato sulla fisica, addestrato su 50M clip video, consente a Happyhorse-1.0 di generare movimenti fisicamente plausibili — dinamica dei tessuti, simulazione dei fluidi e meccanica del corpo umano — senza fine-tuning per scena.

Encoder a doppio flusso

A differenza delle architetture a singolo flusso utilizzate dai modelli concorrenti, daVinci-MagiHuman elabora i dettagli spaziali e le dinamiche temporali in rami di encoder separati, quindi li fonde tramite cross-attention. Questa scelta architetturale determina direttamente il vantaggio nel benchmark dell’architettura davinci-magihuman.

Inferenza scalabile

L’architettura è progettata per un’inferenza cloud efficiente — la generazione nativa 4K raggiunge una latenza paragonabile alle uscite a 1080p dei modelli concorrenti, rendendo Happyhorse-1.0 l’unico modello video SOTA con un throughput 4K davvero pratico.

Metriche di valutazione

Valutazione indipendente di Happyhorse-1.0 lungo le principali dimensioni utilizzate nella metodologia di valutazione dei modelli video SOTA di happyhorse. Tutti i punteggi sono normalizzati su una scala 0–100.

Coerenza temporale

96.4

Coerenza fotogramma per fotogramma misurata tramite errore di flusso ottico e accordo tra valutatori umani su 5.000 coppie di clip.

Qualità del movimento

95.1

Plausibilità fisica del movimento, includendo postura umana, oggetti rigidi e dinamica dei fluidi. Valutata da annotatori esperti.

Aderenza al prompt

93.8

Allineamento tra il prompt testuale e il contenuto video generato, valutato da un valutatore basato su CLIP ottimizzato tramite fine-tuning.

Fedeltà visiva 4K

94.7

Nitidezza, accuratezza cromatica e livelli di rumore alla risoluzione nativa 4K. Misurata in benchmark rispetto a filmati di riferimento.

Preferenza umana (Arena)

91.2

Tasso di preferenza normalizzato Elo dalle comparazioni a coppie dell’Artificial Analysis Video Arena. Riflette il posizionamento di happyhorse nell’Arena.

Velocità di generazione

88.5

Throughput normalizzato per latenza alle risoluzioni standard 1080p e 4K. Confrontata con Sora 2, Kling 2.0 e Runway Gen-4.

Confronto diretto

Valutazione diretta di happyhorse rispetto ad altri modelli video lungo le dimensioni più rilevanti per la produzione video professionale. Happyhorse-1.0 è in testa su ogni metrica di qualità, eguagliando o superando i concorrenti in termini di velocità.

Happyhorse-1.0 vs modelli video concorrenti — Confronto completo delle funzionalità
FunzionalitàHappyhorse-1.0Sora 2Kling 2.0Runway Gen-4
Risoluzione massima4K nativo1080p1080p1080p
Punteggio di coerenza temporale96,4 / 10091,2 / 10089,5 / 10087,9 / 100
Punteggio di fisica del movimento95,1 / 10090,8 / 10088,3 / 10086,7 / 100
Elo Arena (Artificial Analysis)2,29 (#1)2,11 (#2)2,04 (#3)1,98 (#4)
Architettura daVinci-MagiHumanNoNoNo
Integrazione con ComfyUINodo ufficialeNoDi terze partiDi terze parti
API pubblicaIn arrivo

Punteggi tratti da Artificial Analysis Video Arena e da valutazioni indipendenti di terze parti. Ultimo aggiornamento: Q2 2025.

Metodologia

I risultati del benchmark Happyhorse-1.0 provengono da due fonti principali: la valutazione delle preferenze umane dell’Artificial Analysis Video Arena e la nostra suite di valutazione interna, eseguita su un set di test separato.

Artificial Analysis Video Arena

L’Arena utilizza confronti a coppie in cieco valutati da giudici umani. I modelli vengono presentati affiancati sugli stessi prompt; i valutatori scelgono l’output migliore senza sapere quale modello lo abbia prodotto. I punteggi Elo vengono calcolati a partire dai risultati cumulati di vittorie/sconfitte/pareggi. Questa è la metodologia alla base della classifica della leaderboard dell’Artificial Analysis Video Arena per happyhorse-1.0.

Suite di valutazione interna

La nostra suite interna valuta la coerenza temporale tramite la coerenza del flusso ottico (RAFT-large), la qualità del movimento tramite una pipeline di stima della posa (ViTPose-H) e l’aderenza al prompt tramite un modello CLIP-L/14 ottimizzato con fine-tuning. Tutte le valutazioni vengono eseguite su un set di test separato di 10.000 clip, stratificato per tipo di scena, complessità del movimento e categoria di prompt.

Riproducibilità di terze parti

Tutti i risultati del benchmark interno sono riproducibili utilizzando gli script di valutazione nel nostro repository GitHub pubblico. I prompt del set di test e i metadati di riferimento sono disponibili pubblicamente, così che i ricercatori possano verificare in modo indipendente il punteggio di qualità video di happyhorse-1.0 riportato qui.

Validazione di terze parti

Artificial Analysis Video Arena fornisce una valutazione indipendente dei modelli di generazione video basata sulle preferenze umane. Le classifiche sono determinate da confronti a coppie su migliaia di valutazioni.

— Artificial Analysis, metodologia Video Arena

Crea con il modello video n. 1

Happyhorse-1.0 guida tutti i principali benchmark. Accedilo tramite API, integralo in ComfyUI oppure scopri prezzi flessibili — tutto pensato per i team che pubblicano video in produzione su larga scala.