Kết quả Benchmark Happyhorse-1.0
Happyhorse-1.0 vươn lên vị trí dẫn đầu trên bảng xếp hạng Artificial Analysis Video Arena, được hỗ trợ bởi kiến trúc daVinci-MagiHuman. Đánh giá độc lập từ bên thứ ba xác nhận hiệu năng SOTA về tính nhất quán theo thời gian, vật lý chuyển động và chất lượng video 4K.
#1
Xếp hạng toàn cầu
2.29
Điểm Elo Arena
2.51
Điểm daVinci-MagiHuman
Bảng xếp hạng Artificial Analysis Video Arena
Artificial Analysis Video Arena sử dụng bình chọn theo sở thích của con người để xếp hạng các mô hình tạo video trong các màn đối đầu trực tiếp. Happyhorse-1.0 đang dẫn đầu bảng xếp hạng Artificial Analysis Video Arena với điểm Elo 2.29 — vượt trội so với tất cả các mô hình đã được đánh giá về chất lượng video tổng thể.
| Hạng | Mô hình | Elo của Arena | Tính nhất quán theo thời gian | Chất lượng chuyển động | Hỗ trợ 4K |
|---|---|---|---|---|---|
| 1 | Happyhorse-1.0 | 2.29 | 96.4 | 95.1 | 4K |
| 2 | Sora 2 | 2.11 | 91.2 | 90.8 | 1080p |
| 3 | Kling 2.0 | 2.04 | 89.5 | 88.3 | 1080p |
| 4 | Runway Gen-4 | 1.98 | 87.9 | 86.7 | 1080p |
| 5 | Wan 2.1 | 1.91 | 85.4 | 84.2 | 1080p |
Dữ liệu được lấy từ Artificial Analysis Video Arena. Điểm số thể hiện xếp hạng Elo suy ra từ các đánh giá sở thích của con người theo cặp.
Giải thích kiến trúc daVinci-MagiHuman
Kiến trúc daVinci-MagiHuman là đổi mới cốt lõi đứng sau hiệu năng dẫn đầu benchmark của Happyhorse-1.0. Kiến trúc này giới thiệu bộ mã hoá không–thời gian hai luồng xử lý song song vật lý chuyển động và ngữ nghĩa cảnh, cho phép đạt độ nhất quán theo thời gian 4K chuẩn từng khung hình mà chưa mô hình đối thủ nào sánh kịp.
Độ nhất quán theo thời gian 4K
Mô-đun mạch lạc theo thời gian của daVinci-MagiHuman duy trì độ nhất quán theo từng điểm ảnh trên toàn bộ khung hình ở độ phân giải 4K gốc. Điều này loại bỏ các artefact nhấp nháy thường gặp ở các mô hình video khác — một lý do then chốt giúp Happyhorse-1.0 dẫn đầu benchmark độ nhất quán theo thời gian của Happyhorse.
Độ chính xác vật lý chuyển động
Tiên nghiệm chuyển động có nhận thức vật lý được huấn luyện trên 50 triệu clip video giúp Happyhorse-1.0 tạo ra chuyển động hợp lý về mặt vật lý — động lực học vải, mô phỏng chất lỏng và cơ học cơ thể người — mà không cần tinh chỉnh theo từng cảnh.
Bộ mã hoá hai luồng
Khác với các kiến trúc một luồng được đối thủ sử dụng, daVinci-MagiHuman xử lý chi tiết không gian và động lực theo thời gian ở các nhánh mã hoá riêng, sau đó hợp nhất chúng thông qua cơ chế cross-attention. Lựa chọn kiến trúc này trực tiếp tạo nên lợi thế benchmark của kiến trúc davinci-magihuman.
Suy luận có thể mở rộng
Kiến trúc được thiết kế để suy luận đám mây hiệu quả — tạo sinh 4K gốc có độ trễ tương đương đầu ra 1080p trên các mô hình đối thủ, khiến Happyhorse-1.0 trở thành mô hình video SOTA duy nhất có thông lượng 4K thực tiễn.
Chỉ số đánh giá
Đánh giá độc lập Happyhorse-1.0 trên các khía cạnh trọng yếu được sử dụng trong phương pháp luận đánh giá mô hình video SOTA của happyhorse. Tất cả điểm số được chuẩn hóa về thang 0–100.
Tính nhất quán theo thời gian
96.4Mức độ mạch lạc giữa các khung hình được đo bằng sai số quang thông (optical flow) và mức độ đồng thuận của người chấm trên 5.000 cặp đoạn clip.
Chất lượng chuyển động
95.1Tính hợp lý về mặt vật lý của chuyển động, bao gồm dáng người, vật thể cứng và động lực học chất lỏng. Được chấm bởi các chuyên gia gán nhãn.
Bám sát lời nhắc
93.8Mức độ khớp giữa lời nhắc văn bản và nội dung video được tạo, được chấm bởi bộ đánh giá dựa trên CLIP đã tinh chỉnh.
Độ trung thực hình ảnh 4K
94.7Độ sắc nét, độ chính xác màu sắc và mức nhiễu ở độ phân giải 4K gốc. Được đối sánh với cảnh quay tham chiếu.
Ưu tiên của người dùng (Arena)
91.2Tỷ lệ ưu tiên đã chuẩn hóa theo Elo từ các so sánh theo cặp trên Artificial Analysis Video Arena. Phản ánh thứ hạng của happyhorse trên arena.
Tốc độ tạo video
88.5Thông lượng đã chuẩn hóa theo độ trễ ở các độ phân giải tiêu chuẩn 1080p và 4K. So sánh với Sora 2, Kling 2.0 và Runway Gen-4.
So sánh đối đầu
Đánh giá trực tiếp Happyhorse so với các mô hình video khác trên những tiêu chí quan trọng nhất cho sản xuất video chuyên nghiệp. Happyhorse-1.0 dẫn đầu ở mọi thước đo chất lượng, đồng thời ngang bằng hoặc vượt đối thủ về tốc độ.
| Tính năng | Happyhorse-1.0 | Sora 2 | Kling 2.0 | Runway Gen-4 |
|---|---|---|---|---|
| Độ phân giải tối đa | 4K gốc | 1080p | 1080p | 1080p |
| Điểm nhất quán theo thời gian | 96.4 / 100 | 91.2 / 100 | 89.5 / 100 | 87.9 / 100 |
| Điểm vật lý chuyển động | 95.1 / 100 | 90.8 / 100 | 88.3 / 100 | 86.7 / 100 |
| Arena Elo (Artificial Analysis) | 2.29 (#1) | 2.11 (#2) | 2.04 (#3) | 1.98 (#4) |
| Kiến trúc daVinci-MagiHuman | Có | Không | Không | Không |
| Tích hợp ComfyUI | Node chính thức | Không | Bên thứ ba | Bên thứ ba |
| API công khai | Sắp ra mắt | Có | Có | Có |
Điểm số được tổng hợp từ Artificial Analysis Video Arena và các đánh giá độc lập từ bên thứ ba. Cập nhật lần cuối: Q2 2025.
Phương pháp luận
Kết quả benchmark happyhorse-1.0 được tổng hợp từ hai nguồn chính: đánh giá mức độ ưa thích của con người trong Artificial Analysis Video Arena, và bộ đánh giá nội bộ của chúng tôi chạy trên một tập kiểm thử giữ lại (held-out).
Artificial Analysis Video Arena
Arena sử dụng các so sánh cặp đôi mù do người đánh giá chấm điểm. Các mô hình được trình bày cạnh nhau với cùng một prompt; người chấm chọn đầu ra tốt hơn mà không biết mô hình nào tạo ra. Điểm Elo được tính từ các kết quả thắng/thua/hòa tích lũy. Đây là phương pháp luận đứng sau thứ hạng trên bảng xếp hạng happyhorse-1.0 của Artificial Analysis Video Arena.
Bộ đánh giá nội bộ
Bộ đánh giá nội bộ của chúng tôi đo lường tính nhất quán theo thời gian thông qua độ nhất quán quang thông (optical flow) (RAFT-large), chất lượng chuyển động thông qua một pipeline ước lượng tư thế (ViTPose-H), và mức độ bám sát prompt thông qua mô hình CLIP-L/14 đã được tinh chỉnh. Tất cả đánh giá được chạy trên tập kiểm thử giữ lại gồm 10.000 clip, được phân tầng theo loại cảnh, độ phức tạp chuyển động và nhóm prompt.
Khả năng tái lập bởi bên thứ ba
Toàn bộ kết quả benchmark nội bộ có thể được tái lập bằng các script đánh giá trong kho GitHub công khai của chúng tôi. Các prompt của tập kiểm thử và metadata tham chiếu được công khai để các nhà nghiên cứu có thể tự xác minh độc lập điểm chất lượng video happyhorse-1.0 được báo cáo tại đây.
Xác thực từ bên thứ ba
“Artificial Analysis Video Arena cung cấp đánh giá độc lập các mô hình tạo video bằng AI dựa trên sở thích của con người. Thứ hạng được xác định thông qua so sánh theo cặp trên hàng nghìn lượt đánh giá.”
— Artificial Analysis, Phương pháp Video Arena
Xây dựng với Mô hình Video số 1
Happyhorse-1.0 dẫn đầu mọi bài đánh giá chuẩn hàng đầu. Truy cập qua API, tích hợp vào ComfyUI, hoặc khám phá mức giá linh hoạt — tất cả được thiết kế cho các đội ngũ triển khai video sản xuất ở quy mô lớn.
