Happyhorse-1.0 ベンチマーク結果
Happyhorse-1.0 は daVinci-MagiHuman アーキテクチャを基盤に、Artificial Analysis Video Arena のリーダーボードで首位を獲得しました。独立した第三者評価により、時間的一貫性、モーション物理、4K 動画品質の各指標で最先端(SOTA)の性能が確認されています。
#1
世界ランキング
2.29
Arena Elo スコア
2.51
daVinci-MagiHuman スコア
Artificial Analysis ビデオアリーナ ランキング
Artificial Analysis ビデオアリーナは、人間の嗜好投票に基づく一対一の比較で動画生成モデルをランキング化します。Happyhorse-1.0 は Elo スコア 2.29 を記録し、総合的な動画品質において評価対象の全モデルを上回り、Artificial Analysis ビデオアリーナのリーダーボードで首位に立っています。
| 順位 | モデル | アリーナ Elo | 時間的一貫性 | モーション品質 | 4K 対応 |
|---|---|---|---|---|---|
| 1 | Happyhorse-1.0 | 2.29 | 96.4 | 95.1 | 4K |
| 2 | Sora 2 | 2.11 | 91.2 | 90.8 | 1080p |
| 3 | Kling 2.0 | 2.04 | 89.5 | 88.3 | 1080p |
| 4 | Runway Gen-4 | 1.98 | 87.9 | 86.7 | 1080p |
| 5 | Wan 2.1 | 1.91 | 85.4 | 84.2 | 1080p |
データ出典:Artificial Analysis ビデオアリーナ。スコアは、人間によるペア比較(嗜好評価)から算出された Elo レーティングを示します。
daVinci-MagiHuman アーキテクチャ解説
daVinci-MagiHuman アーキテクチャは、Happyhorse-1.0 がベンチマークでトップクラスの性能を実現する中核となる革新です。モーションの物理特性とシーンのセマンティクスを並列に処理するデュアルストリームの時空間エンコーダを導入し、競合モデルが到達できていないフレーム単位での正確な 4K の時間的一貫性を可能にします。
4K の時間的一貫性
daVinci-MagiHuman の時間的コヒーレンス・モジュールは、ネイティブ 4K 解像度で全フレームにわたりピクセル単位の一貫性を維持します。これにより、他の動画モデルで一般的なちらつき(フリッカー)アーティファクトを排除し、Happyhorse-1.0 が happyhorse 時間的一貫性ベンチマークをリードする主要因となっています。
モーション物理の高精度
5,000 万本の動画クリップで学習した物理認識型のモーション事前分布により、Happyhorse-1.0 はシーンごとの微調整なしに、布のダイナミクス、流体シミュレーション、人間の身体力学といった物理的に妥当な動きを生成できます。
デュアルストリーム・エンコーダ
競合モデルで用いられる単一ストリームのアーキテクチャとは異なり、daVinci-MagiHuman は空間ディテールと時間ダイナミクスを別々のエンコーダ分岐で処理し、クロスアテンションで融合します。この設計選択が、davinci-magihuman アーキテクチャのベンチマーク優位性を直接的に生み出しています。
スケーラブルな推論
本アーキテクチャはクラウドでの効率的な推論を前提に設計されており、ネイティブ 4K 生成は競合モデルの 1080p 出力と同等のレイテンシで動作します。これにより Happyhorse-1.0 は、実用的な 4K スループットを備えた唯一の最先端(SOTA)動画モデルとなっています。
評価指標
Happyhorse-1.0 を、happyhorse の最先端動画モデル評価手法で用いられる主要な観点に沿って独立評価した結果です。すべてのスコアは 0~100 の尺度に正規化されています。
時間的一貫性
96.4光学フロー誤差と、5,000 組のクリップペアに対する人手評価者の一致率により、フレーム間の整合性を測定しました。
モーション品質
95.1人物のポーズ、剛体オブジェクト、流体ダイナミクスを含む動きの物理的妥当性。専門アノテーターが評価しました。
プロンプト順守
93.8テキストプロンプトと生成動画内容の整合性を、微調整した CLIP ベースの評価器でスコアリングしました。
4K 映像忠実度
94.7ネイティブ 4K 解像度におけるシャープネス、色再現性、ノイズレベル。参照映像との比較でベンチマークしました。
人間の選好(アリーナ)
91.2Artificial Analysis Video Arena におけるペアワイズ比較の選好率を、Elo で正規化した指標です。happyhorse のアリーナ順位を反映します。
生成速度
88.5標準の 1080p および 4K 解像度におけるレイテンシ正規化スループット。Sora 2、Kling 2.0、Runway Gen-4 と比較しました。
直接比較
プロの映像制作で特に重要となる指標に沿って、happyhorse と他の動画モデルを直接評価。Happyhorse-1.0 はすべての品質指標で優位に立ち、速度面でも競合に並ぶ、または上回ります。
| 機能 | Happyhorse-1.0 | Sora 2 | Kling 2.0 | Runway Gen-4 |
|---|---|---|---|---|
| 最大解像度 | ネイティブ 4K | 1080p | 1080p | 1080p |
| 時間的一貫性スコア | 96.4 / 100 | 91.2 / 100 | 89.5 / 100 | 87.9 / 100 |
| モーション物理スコア | 95.1 / 100 | 90.8 / 100 | 88.3 / 100 | 86.7 / 100 |
| Arena Elo(Artificial Analysis) | 2.29(#1) | 2.11(#2) | 2.04(#3) | 1.98(#4) |
| daVinci-MagiHuman アーキテクチャ | はい | いいえ | いいえ | いいえ |
| ComfyUI 連携 | 公式ノード | なし | サードパーティ | サードパーティ |
| 公開 API | 近日公開 | あり | あり | あり |
スコアは Artificial Analysis Video Arena および独立したサードパーティ評価に基づきます。最終更新:2025 年第 2 四半期。
方法論
Happyhorse-1.0 のベンチマーク結果は、主に 2 つの情報源に基づいています。人工分析(Artificial Analysis)Video Arena における人間の嗜好評価と、ホールドアウトされたテストセットに対して実行する社内評価スイートです。
Artificial Analysis Video Arena
Arena では、人間の評価者によるブラインドの二者比較を用います。モデルは同一のプロンプトに対する出力を並べて提示され、評価者はどのモデルが生成したかを知らされないまま、より良い出力を選択します。Elo スコアは、蓄積された勝敗・引き分け結果から算出されます。これは、happyhorse-1.0 の Artificial Analysis Video Arena リーダーボード順位を支える評価手法です。
社内評価スイート
社内スイートでは、時間的一貫性をオプティカルフローの整合性(RAFT-large)で、動きの品質を姿勢推定パイプライン(ViTPose-H)で、プロンプト遵守をファインチューニング済みの CLIP-L/14 モデルで評価します。すべての評価は、シーン種別・動きの複雑さ・プロンプトカテゴリで層化した 10,000 クリップのホールドアウトテストセット上で実行されます。
第三者による再現性
社内ベンチマーク結果は、公開 GitHub リポジトリの評価スクリプトを用いて再現可能です。テストセットのプロンプトと参照メタデータは公開されており、研究者が本稿で報告する happyhorse-1.0 の動画品質スコアを独立に検証できるようになっています。
第三者による検証
“Artificial Analysis Video Arena は、AI動画生成モデルを人間の嗜好に基づいて独立評価します。ランキングは、数千件に及ぶ評価におけるペア比較によって決定されます。”
— Artificial Analysis(Video Arena 手法)
No.1 動画モデルで開発する
Happyhorse-1.0 は主要なベンチマークでトップクラスの性能を達成しています。API 経由で利用するほか、ComfyUI に統合したり、柔軟な料金体系を確認したりできます。いずれも、大規模に本番向け動画を提供するチームのために設計されています。
