#1 Artificial Analysis 影片競技場

Happyhorse-1.0 基準測試結果

Happyhorse-1.0 以 daVinci-MagiHuman 架構為核心，榮登 Artificial Analysis 影片競技場排行榜首位。經獨立第三方評測驗證，在時間一致性、運動物理與 4K 影片畫質等面向皆展現 SOTA 頂尖表現。

全球排名

2.29

競技場 Elo 分數

2.51

daVinci-MagiHuman 分數

查看方案與價格 API 存取 ComfyUI 整合

Artificial Analysis 影片競技場排名

Artificial Analysis 影片競技場透過人類偏好投票，讓影片生成模型進行一對一對決並據此排名。Happyhorse-1.0 以 2.29 的 Elo 分數領先 Artificial Analysis 影片競技場排行榜——在整體影片品質上優於所有已評測模型。

Artificial Analysis 影片競技場 — Happyhorse-1.0 排行榜（截至 2025 年第 2 季）
排名	模型	競技場 Elo	時間一致性	動作品質	4K 支援
1	Happyhorse-1.0	2.29	96.4	95.1	4K
2	Sora 2	2.11	91.2	90.8	1080p
3	Kling 2.0	2.04	89.5	88.3	1080p
4	Runway Gen-4	1.98	87.9	86.7	1080p
5	Wan 2.1	1.91	85.4	84.2	1080p

資料來源：Artificial Analysis 影片競技場。分數為依據成對人類偏好評估計算的 Elo 評分。

來源：Artificial Analysis 影片競技場

daVinci-MagiHuman 架構解析

daVinci-MagiHuman 架構是 Happyhorse-1.0 取得基準測試領先表現的核心創新。它引入雙流式的時空編碼器，同步並行處理運動物理與場景語意，使影片在 4K 原生解析度下仍能達到逐幀精準的時間一致性，這是目前任何競品模型都尚未達成的水準。

4K 時間一致性

daVinci-MagiHuman 的時間連貫模組能在原生 4K 解析度下，維持所有影格的逐像素一致性，消除其他影片模型常見的閃爍瑕疵——這也是 Happyhorse-1.0 在 happyhorse 時間一致性基準測試中領先的關鍵原因。

運動物理精準度

以 5,000 萬支影片片段訓練的物理感知運動先驗，讓 Happyhorse-1.0 能生成符合物理直覺的動作——包含布料動態、流體模擬與人體力學——且無需針對每個場景進行微調。

雙流式編碼器

不同於競品模型採用的單流式架構，daVinci-MagiHuman 將空間細節與時間動態分別於兩個編碼分支中處理，再透過交叉注意力進行融合。此一架構選擇直接帶來 davinci-magihuman 架構基準測試的優勢。

可擴展推論

此架構為高效率雲端推論而設計——原生 4K 生成的延遲可與競品模型輸出 1080p 的延遲相當，使 Happyhorse-1.0 成為唯一在實務上具備可用 4K 吞吐量的 SOTA 影片模型。

評測指標

依據 Happyhorse SOTA 影片模型評測方法學所採用的關鍵維度，對 Happyhorse-1.0 進行獨立評估。所有分數皆正規化至 0–100 的尺度。

時間一致性

96.4

以光流誤差與人工評審一致性衡量逐幀連貫性，涵蓋 5,000 組片段配對。

動作品質

95.1

動作的物理合理性，涵蓋人體姿態、剛體物件與流體動力學。由專家標註者評分。

提示詞遵循度

93.8

文字提示與生成影片內容之間的一致程度，由經微調的 CLIP 架構評估器計分。

4K 視覺保真度

94.7

原生 4K 解析度下的銳利度、色彩準確性與雜訊水準。以參考素材進行基準測試。

人類偏好（Arena）

91.2

來自 Artificial Analysis Video Arena 成對比較的 Elo 正規化偏好率。反映 happyhorse 的 Arena 排名。

生成速度

88.5

在標準 1080p 與 4K 解析度下的延遲正規化吞吐量。與 Sora 2、Kling 2.0 及 Runway Gen-4 比較。

正面對決比較

針對專業影片製作最重視的關鍵面向，直接比較 Happyhorse 與其他影片模型的表現。Happyhorse-1.0 在所有品質指標上領先，同時在速度方面與競品持平或更勝一籌。

Happyhorse-1.0 與競品影片模型 — 完整功能比較
項目	Happyhorse-1.0	Sora 2	Kling 2.0	Runway Gen-4
最高解析度	原生 4K	1080p	1080p	1080p
時間一致性分數	96.4 / 100	91.2 / 100	89.5 / 100	87.9 / 100
動作物理分數	95.1 / 100	90.8 / 100	88.3 / 100	86.7 / 100
Arena Elo（Artificial Analysis）	2.29（#1）	2.11（#2）	2.04（#3）	1.98（#4）
daVinci-MagiHuman 架構	是	否	否	否
ComfyUI 整合	官方節點	否	第三方	第三方
公開 API	即將推出	是	是	是

分數來源：Artificial Analysis Video Arena 及獨立第三方評測。最後更新：2025 年第 2 季。

方法論

Happyhorse-1.0 的基準測試結果主要來自兩個來源：Artificial Analysis Video Arena 的人類偏好評估，以及我們在保留測試集上執行的內部評估套件。

Artificial Analysis Video Arena

Arena 採用由人類評審進行的盲測成對比較。系統會在相同提示下並排呈現模型輸出；評審在不知道輸出由哪個模型生成的情況下，選擇較佳的結果。Elo 分數根據累積的勝／負／和局結果計算。這正是 happyhorse-1.0 在 Artificial Analysis Video Arena 排行榜排名背後所採用的方法論。

內部評估套件

我們的內部套件透過光流一致性（RAFT-large）評估時間一致性，透過姿態估計流程（ViTPose-H）評估動作品質，並透過微調的 CLIP-L/14 模型評估提示遵循度。所有評估皆在 10,000 段保留測試片段上進行，並依場景類型、動作複雜度與提示類別進行分層。

第三方可重現性

所有內部基準測試結果皆可使用我們公開 GitHub 儲存庫中的評估腳本重現。測試集提示與參考中繼資料亦對外公開，研究人員可獨立驗證此處所報告的 happyhorse-1.0 影片品質分數。

“Artificial Analysis Video Arena 透過以人類偏好為基礎的獨立評估，衡量 AI 影片生成模型。排名透過在數千次評估中進行成對比較來決定。”

— Artificial Analysis，Video Arena 方法論

在 Artificial Analysis Video Arena 查看 Happyhorse-1.0 →

使用第一名影片模型打造作品

Happyhorse-1.0 在各大主流基準測試中皆名列前茅。可透過 API 存取、整合至 ComfyUI，或探索彈性定價方案——專為需要大規模交付生產級影片的團隊而設計。

查看定價 ComfyUI 整合 API 存取（即將推出）