Happyhorse-1.0 基準測試結果
Happyhorse-1.0 以 daVinci-MagiHuman 架構為核心,榮登 Artificial Analysis 影片競技場排行榜首位。經獨立第三方評測驗證,在時間一致性、運動物理與 4K 影片畫質等面向皆展現 SOTA 頂尖表現。
#1
全球排名
2.29
競技場 Elo 分數
2.51
daVinci-MagiHuman 分數
Artificial Analysis 影片競技場排名
Artificial Analysis 影片競技場透過人類偏好投票,讓影片生成模型進行一對一對決並據此排名。Happyhorse-1.0 以 2.29 的 Elo 分數領先 Artificial Analysis 影片競技場排行榜——在整體影片品質上優於所有已評測模型。
| 排名 | 模型 | 競技場 Elo | 時間一致性 | 動作品質 | 4K 支援 |
|---|---|---|---|---|---|
| 1 | Happyhorse-1.0 | 2.29 | 96.4 | 95.1 | 4K |
| 2 | Sora 2 | 2.11 | 91.2 | 90.8 | 1080p |
| 3 | Kling 2.0 | 2.04 | 89.5 | 88.3 | 1080p |
| 4 | Runway Gen-4 | 1.98 | 87.9 | 86.7 | 1080p |
| 5 | Wan 2.1 | 1.91 | 85.4 | 84.2 | 1080p |
資料來源:Artificial Analysis 影片競技場。分數為依據成對人類偏好評估計算的 Elo 評分。
daVinci-MagiHuman 架構解析
daVinci-MagiHuman 架構是 Happyhorse-1.0 取得基準測試領先表現的核心創新。它引入雙流式的時空編碼器,同步並行處理運動物理與場景語意,使影片在 4K 原生解析度下仍能達到逐幀精準的時間一致性,這是目前任何競品模型都尚未達成的水準。
4K 時間一致性
daVinci-MagiHuman 的時間連貫模組能在原生 4K 解析度下,維持所有影格的逐像素一致性,消除其他影片模型常見的閃爍瑕疵——這也是 Happyhorse-1.0 在 happyhorse 時間一致性基準測試中領先的關鍵原因。
運動物理精準度
以 5,000 萬支影片片段訓練的物理感知運動先驗,讓 Happyhorse-1.0 能生成符合物理直覺的動作——包含布料動態、流體模擬與人體力學——且無需針對每個場景進行微調。
雙流式編碼器
不同於競品模型採用的單流式架構,daVinci-MagiHuman 將空間細節與時間動態分別於兩個編碼分支中處理,再透過交叉注意力進行融合。此一架構選擇直接帶來 davinci-magihuman 架構基準測試的優勢。
可擴展推論
此架構為高效率雲端推論而設計——原生 4K 生成的延遲可與競品模型輸出 1080p 的延遲相當,使 Happyhorse-1.0 成為唯一在實務上具備可用 4K 吞吐量的 SOTA 影片模型。
評測指標
依據 Happyhorse SOTA 影片模型評測方法學所採用的關鍵維度,對 Happyhorse-1.0 進行獨立評估。所有分數皆正規化至 0–100 的尺度。
時間一致性
96.4以光流誤差與人工評審一致性衡量逐幀連貫性,涵蓋 5,000 組片段配對。
動作品質
95.1動作的物理合理性,涵蓋人體姿態、剛體物件與流體動力學。由專家標註者評分。
提示詞遵循度
93.8文字提示與生成影片內容之間的一致程度,由經微調的 CLIP 架構評估器計分。
4K 視覺保真度
94.7原生 4K 解析度下的銳利度、色彩準確性與雜訊水準。以參考素材進行基準測試。
人類偏好(Arena)
91.2來自 Artificial Analysis Video Arena 成對比較的 Elo 正規化偏好率。反映 happyhorse 的 Arena 排名。
生成速度
88.5在標準 1080p 與 4K 解析度下的延遲正規化吞吐量。與 Sora 2、Kling 2.0 及 Runway Gen-4 比較。
正面對決比較
針對專業影片製作最重視的關鍵面向,直接比較 Happyhorse 與其他影片模型的表現。Happyhorse-1.0 在所有品質指標上領先,同時在速度方面與競品持平或更勝一籌。
| 項目 | Happyhorse-1.0 | Sora 2 | Kling 2.0 | Runway Gen-4 |
|---|---|---|---|---|
| 最高解析度 | 原生 4K | 1080p | 1080p | 1080p |
| 時間一致性分數 | 96.4 / 100 | 91.2 / 100 | 89.5 / 100 | 87.9 / 100 |
| 動作物理分數 | 95.1 / 100 | 90.8 / 100 | 88.3 / 100 | 86.7 / 100 |
| Arena Elo(Artificial Analysis) | 2.29(#1) | 2.11(#2) | 2.04(#3) | 1.98(#4) |
| daVinci-MagiHuman 架構 | 是 | 否 | 否 | 否 |
| ComfyUI 整合 | 官方節點 | 否 | 第三方 | 第三方 |
| 公開 API | 即將推出 | 是 | 是 | 是 |
分數來源:Artificial Analysis Video Arena 及獨立第三方評測。最後更新:2025 年第 2 季。
方法論
Happyhorse-1.0 的基準測試結果主要來自兩個來源:Artificial Analysis Video Arena 的人類偏好評估,以及我們在保留測試集上執行的內部評估套件。
Artificial Analysis Video Arena
Arena 採用由人類評審進行的盲測成對比較。系統會在相同提示下並排呈現模型輸出;評審在不知道輸出由哪個模型生成的情況下,選擇較佳的結果。Elo 分數根據累積的勝/負/和局結果計算。這正是 happyhorse-1.0 在 Artificial Analysis Video Arena 排行榜排名背後所採用的方法論。
內部評估套件
我們的內部套件透過光流一致性(RAFT-large)評估時間一致性,透過姿態估計流程(ViTPose-H)評估動作品質,並透過微調的 CLIP-L/14 模型評估提示遵循度。所有評估皆在 10,000 段保留測試片段上進行,並依場景類型、動作複雜度與提示類別進行分層。
第三方可重現性
所有內部基準測試結果皆可使用我們公開 GitHub 儲存庫中的評估腳本重現。測試集提示與參考中繼資料亦對外公開,研究人員可獨立驗證此處所報告的 happyhorse-1.0 影片品質分數。
第三方驗證
“Artificial Analysis Video Arena 透過以人類偏好為基礎的獨立評估,衡量 AI 影片生成模型。排名透過在數千次評估中進行成對比較來決定。”
— Artificial Analysis,Video Arena 方法論
使用第一名影片模型打造作品
Happyhorse-1.0 在各大主流基準測試中皆名列前茅。可透過 API 存取、整合至 ComfyUI,或探索彈性定價方案——專為需要大規模交付生產級影片的團隊而設計。
