Wyniki benchmarku Happyhorse-1.0
Happyhorse-1.0 zajmuje pierwsze miejsce w rankingu Artificial Analysis Video Arena, napędzany architekturą daVinci-MagiHuman. Niezależna ocena zewnętrzna potwierdza wydajność na poziomie SOTA w zakresie spójności czasowej, fizyki ruchu oraz jakości wideo 4K.
#1
Pozycja globalna
2.29
Wynik Elo Areny
2.51
Wynik daVinci-MagiHuman
Ranking Artificial Analysis Video Arena
Artificial Analysis Video Arena wykorzystuje głosowanie oparte na preferencjach ludzi, aby zestawiać modele generowania wideo w bezpośrednich pojedynkach i tworzyć ranking. Happyhorse-1.0 przewodzi tabeli Artificial Analysis Video Arena z wynikiem 2,29 Elo — przewyższając wszystkie oceniane modele pod względem ogólnej jakości wideo.
| Pozycja | Model | Elo (Arena) | Spójność czasowa | Jakość ruchu | Obsługa 4K |
|---|---|---|---|---|---|
| 1 | Happyhorse-1.0 | 2.29 | 96.4 | 95.1 | 4K |
| 2 | Sora 2 | 2.11 | 91.2 | 90.8 | 1080p |
| 3 | Kling 2.0 | 2.04 | 89.5 | 88.3 | 1080p |
| 4 | Runway Gen-4 | 1.98 | 87.9 | 86.7 | 1080p |
| 5 | Wan 2.1 | 1.91 | 85.4 | 84.2 | 1080p |
Dane pochodzą z Artificial Analysis Video Arena. Wyniki to oceny Elo wyliczone na podstawie porównań parami w ramach ocen preferencji użytkowników.
Wyjaśnienie architektury daVinci-MagiHuman
Architektura daVinci-MagiHuman to kluczowa innowacja stojąca za wiodącą w benchmarkach wydajnością Happyhorse-1.0. Wprowadza dwustrumieniowy (przestrzenno‑czasowy) enkoder, który równolegle przetwarza fizykę ruchu oraz semantykę sceny, zapewniając idealną, natywną spójność czasową 4K, której nie osiągnął żaden konkurencyjny model.
Spójność czasowa 4K
Moduł spójności czasowej daVinci-MagiHuman utrzymuje spójność per‑piksel we wszystkich klatkach w natywnej rozdzielczości 4K. Eliminuje to migotanie typowe dla innych modeli wideo — kluczowy powód, dla którego Happyhorse-1.0 prowadzi w benchmarku spójności czasowej happyhorse.
Dokładność fizyki ruchu
Świadomy fizyki priorytet ruchu, wytrenowany na 50 mln klipów wideo, pozwala Happyhorse-1.0 generować fizycznie wiarygodny ruch — dynamikę tkanin, symulacje płynów oraz mechanikę ludzkiego ciała — bez dostrajania pod konkretną scenę.
Enkoder dwustrumieniowy
W przeciwieństwie do architektur jednowarstwowych stosowanych przez konkurencyjne modele, daVinci-MagiHuman przetwarza szczegóły przestrzenne i dynamikę czasową w oddzielnych gałęziach enkodera, a następnie łączy je poprzez cross‑attention. Ten wybór architektoniczny bezpośrednio przekłada się na przewagę w benchmarku architektury davinci-magihuman.
Skalowalne wnioskowanie
Architektura została zaprojektowana z myślą o wydajnym wnioskowaniu w chmurze — natywne generowanie 4K działa z opóźnieniem porównywalnym do wyników 1080p w konkurencyjnych modelach, co czyni Happyhorse-1.0 jedynym wiodącym modelem wideo SOTA o praktycznej przepustowości 4K.
Metryki oceny
Niezależna ocena Happyhorse-1.0 w kluczowych wymiarach stosowanych w metodologii oceny modeli wideo SOTA Happyhorse. Wszystkie wyniki są znormalizowane do skali 0–100.
Spójność czasowa
96.4Spójność między kolejnymi klatkami mierzona błędem przepływu optycznego oraz zgodnością ocen człowieka na 5 000 parach klipów.
Jakość ruchu
95.1Fizyczna wiarygodność ruchu obejmująca pozę człowieka, obiekty sztywne oraz dynamikę płynów. Oceniane przez ekspertów-annotatorów.
Zgodność z promptem
93.8Dopasowanie między promptem tekstowym a wygenerowaną treścią wideo, oceniane przez dostrojony ewaluator oparty na CLIP.
Wierność obrazu 4K
94.7Ostrość, wierność kolorów i poziom szumu w natywnej rozdzielczości 4K. Porównane z materiałem referencyjnym.
Preferencje ludzi (Arena)
91.2Wskaźnik preferencji znormalizowany metodą Elo na podstawie porównań parami w Artificial Analysis Video Arena. Odzwierciedla pozycję Happyhorse w rankingu Areny.
Szybkość generowania
88.5Przepustowość znormalizowana względem opóźnień w standardowych rozdzielczościach 1080p i 4K. Porównano z Sora 2, Kling 2.0 i Runway Gen-4.
Porównanie bezpośrednie
Bezpośrednie porównanie happyhorse z innymi modelami wideo w kluczowych dla profesjonalnej produkcji wymiarach. Happyhorse-1.0 prowadzi we wszystkich wskaźnikach jakości, jednocześnie dorównując lub przewyższając konkurencję pod względem szybkości.
| Funkcja | Happyhorse-1.0 | Sora 2 | Kling 2.0 | Runway Gen-4 |
|---|---|---|---|---|
| Maksymalna rozdzielczość | Natywne 4K | 1080p | 1080p | 1080p |
| Wynik spójności czasowej | 96.4 / 100 | 91.2 / 100 | 89.5 / 100 | 87.9 / 100 |
| Wynik fizyki ruchu | 95.1 / 100 | 90.8 / 100 | 88.3 / 100 | 86.7 / 100 |
| Arena Elo (Artificial Analysis) | 2.29 (#1) | 2.11 (#2) | 2.04 (#3) | 1.98 (#4) |
| Architektura daVinci-MagiHuman | Tak | Nie | Nie | Nie |
| Integracja z ComfyUI | Oficjalny węzeł | Nie | Od zewnętrznego dostawcy | Od zewnętrznego dostawcy |
| Publiczne API | Wkrótce | Tak | Tak | Tak |
Wyniki pochodzą z Artificial Analysis Video Arena oraz niezależnych ocen podmiotów trzecich. Ostatnia aktualizacja: II kw. 2025.
Metodologia
Wyniki benchmarku Happyhorse-1.0 pochodzą z dwóch głównych źródeł: oceny preferencji ludzi w Artificial Analysis Video Arena oraz naszego wewnętrznego zestawu ewaluacyjnego uruchamianego na odseparowanym zbiorze testowym.
Artificial Analysis Video Arena
Arena wykorzystuje ślepe porównania parami oceniane przez ewaluatorów. Modele są prezentowane obok siebie na identycznych promptach; oceniający wybierają lepszy wynik, nie wiedząc, który model go wygenerował. Wyniki Elo są obliczane na podstawie skumulowanych rezultatów zwycięstw/porażek/remisów. To metodologia stojąca za rankingiem w tabeli wyników happyhorse-1.0 w Artificial Analysis Video Arena.
Wewnętrzny zestaw ewaluacyjny
Nasz wewnętrzny zestaw ocenia spójność czasową poprzez spójność przepływu optycznego (RAFT-large), jakość ruchu poprzez pipeline estymacji pozy (ViTPose-H) oraz zgodność z promptem poprzez dostrojony model CLIP-L/14. Wszystkie ewaluacje są uruchamiane na odseparowanym zbiorze testowym 10 000 klipów, z warstwowaniem według typu sceny, złożoności ruchu oraz kategorii promptu.
Reproduktywność przez podmioty trzecie
Wszystkie wewnętrzne wyniki benchmarku można odtworzyć, korzystając ze skryptów ewaluacyjnych w naszym publicznym repozytorium GitHub. Prompty ze zbioru testowego oraz metadane referencyjne są publicznie dostępne, dzięki czemu badacze mogą niezależnie zweryfikować raportowany tutaj wynik jakości wideo happyhorse-1.0.
Walidacja przez stronę trzecią
“Artificial Analysis Video Arena zapewnia niezależną ocenę modeli generowania wideo przez AI opartą na preferencjach ludzi. Rankingi są ustalane na podstawie porównań parami w ramach tysięcy ocen.”
— Artificial Analysis, metodologia Video Arena
Twórz z wiodącym modelem wideo
Happyhorse-1.0 zajmuje czołowe miejsca we wszystkich najważniejszych benchmarkach. Uzyskaj dostęp przez API, zintegruj z ComfyUI lub poznaj elastyczne ceny — wszystko stworzone z myślą o zespołach, które wdrażają produkcyjne wideo na dużą skalę.
