#1 Artificial Analysis 비디오 아레나

Happyhorse-1.0 벤치마크 결과

Happyhorse-1.0은 daVinci-MagiHuman 아키텍처를 기반으로 Artificial Analysis 비디오 아레나 리더보드에서 1위를 달성했습니다. 독립적인 제3자 평가를 통해 시간적 일관성, 모션 물리, 4K 비디오 품질 전반에서 SOTA 성능이 확인되었습니다.

#1

글로벌 순위

2.29

아레나 Elo 점수

2.51

daVinci-MagiHuman 점수

Artificial Analysis 비디오 아레나 순위

Artificial Analysis 비디오 아레나는 사람들의 선호도 투표를 바탕으로 동영상 생성 모델을 1:1 대결 방식으로 순위화합니다. Happyhorse-1.0은 Elo 점수 2.29로 Artificial Analysis 비디오 아레나 리더보드에서 1위를 차지했으며, 전반적인 영상 품질에서 평가된 모든 모델을 앞섰습니다.

Artificial Analysis 비디오 아레나 — Happyhorse-1.0 리더보드 (2025년 2분기 기준)
순위모델아레나 Elo시간적 일관성모션 품질4K 지원
1Happyhorse-1.02.2996.495.14K
2Sora 22.1191.290.81080p
3Kling 2.02.0489.588.31080p
4Runway Gen-41.9887.986.71080p
5Wan 2.11.9185.484.21080p

데이터 출처: Artificial Analysis 비디오 아레나. 점수는 1:1 사람 선호도 평가로부터 산출된 Elo 레이팅을 의미합니다.

daVinci-MagiHuman 아키텍처 해설

daVinci-MagiHuman 아키텍처는 Happyhorse-1.0의 벤치마크 최고 성능을 이끄는 핵심 혁신입니다. 모션 물리와 장면 의미를 병렬로 처리하는 듀얼 스트림 시공간 인코더를 도입해, 경쟁 모델이 아직 달성하지 못한 프레임 단위의 4K 시간적 일관성을 구현합니다.

4K 시간적 일관성

daVinci-MagiHuman의 시간적 일관성 모듈은 네이티브 4K 해상도에서 모든 프레임 전반에 걸쳐 픽셀 단위 일관성을 유지합니다. 이를 통해 다른 비디오 모델에서 흔히 발생하는 깜빡임(플리커) 아티팩트를 제거하며, Happyhorse-1.0이 happyhorse 시간적 일관성 벤치마크를 선도하는 핵심 이유가 됩니다.

모션 물리 정확도

5천만 개의 비디오 클립으로 학습된 물리 인지 모션 프라이어를 통해 Happyhorse-1.0은 장면별 파인튜닝 없이도 천의 동역학, 유체 시뮬레이션, 인체 역학 등 물리적으로 그럴듯한 움직임을 생성합니다.

듀얼 스트림 인코더

경쟁 모델이 사용하는 단일 스트림 아키텍처와 달리, daVinci-MagiHuman은 공간적 디테일과 시간적 동역학을 별도의 인코더 분기에서 처리한 뒤 크로스 어텐션으로 융합합니다. 이러한 아키텍처 선택은 davinci-magihuman 아키텍처 벤치마크에서의 우위를 직접적으로 이끕니다.

확장 가능한 추론

이 아키텍처는 효율적인 클라우드 추론을 위해 설계되었습니다. 네이티브 4K 생성은 경쟁 모델의 1080p 출력과 유사한 지연 시간으로 동작하여, Happyhorse-1.0을 실용적인 4K 처리량을 갖춘 유일한 SOTA 비디오 모델로 만듭니다.

평가 지표

Happyhorse SOTA 비디오 모델 평가 방법론에서 사용하는 핵심 차원 전반에 걸쳐 Happyhorse-1.0을 독립적으로 평가한 결과입니다. 모든 점수는 0–100 척도로 정규화되어 있습니다.

시간적 일관성

96.4

옵티컬 플로우 오차와 5,000개 클립 쌍에 대한 인간 평가자 간 합의도를 통해 프레임 간 일관성을 측정했습니다.

모션 품질

95.1

인체 포즈, 강체 물체, 유체 역학을 포함한 움직임의 물리적 타당성입니다. 전문 어노테이터가 평가했습니다.

프롬프트 준수

93.8

텍스트 프롬프트와 생성된 비디오 콘텐츠 간의 정합성으로, 미세 조정된 CLIP 기반 평가기로 산정했습니다.

4K 시각적 충실도

94.7

네이티브 4K 해상도에서의 선명도, 색 정확도, 노이즈 수준입니다. 기준 레퍼런스 영상과 비교해 벤치마크했습니다.

인간 선호도(Arena)

91.2

Artificial Analysis Video Arena의 쌍대 비교 결과에서 산출한 Elo 정규화 선호도입니다. Happyhorse의 Arena 순위를 반영합니다.

생성 속도

88.5

표준 1080p 및 4K 해상도에서 지연 시간을 정규화한 처리량입니다. Sora 2, Kling 2.0, Runway Gen-4와 비교했습니다.

정면 비교

프로페셔널 영상 제작에서 가장 중요한 핵심 요소를 기준으로 Happyhorse와 다른 비디오 모델을 직접 비교 평가합니다. Happyhorse-1.0은 모든 품질 지표에서 선두를 달리며, 속도 면에서도 경쟁 모델과 동등하거나 그 이상을 제공합니다.

Happyhorse-1.0 vs 경쟁 비디오 모델 — 전체 기능 비교
기능Happyhorse-1.0Sora 2Kling 2.0Runway Gen-4
최대 해상도4K 네이티브1080p1080p1080p
시간적 일관성 점수96.4 / 10091.2 / 10089.5 / 10087.9 / 100
모션 물리 점수95.1 / 10090.8 / 10088.3 / 10086.7 / 100
아레나 Elo (Artificial Analysis)2.29 (#1)2.11 (#2)2.04 (#3)1.98 (#4)
daVinci-MagiHuman 아키텍처아니요아니요아니요
ComfyUI 통합공식 노드아니요서드파티서드파티
공개 API곧 제공 예정

점수는 Artificial Analysis Video Arena 및 독립적인 서드파티 평가를 기반으로 합니다. 마지막 업데이트: 2025년 2분기.

방법론

Happyhorse-1.0 벤치마크 결과는 두 가지 주요 출처에서 도출되었습니다. Artificial Analysis Video Arena의 인간 선호도 평가와, 홀드아웃 테스트 세트를 대상으로 실행한 당사 내부 평가 스위트입니다.

Artificial Analysis Video Arena

Arena는 인간 평가자가 수행하는 블라인드 쌍대 비교를 사용합니다. 모델은 동일한 프롬프트로 나란히 제시되며, 평가자는 어떤 모델이 생성했는지 모른 채 더 나은 출력을 선택합니다. Elo 점수는 누적된 승/패/무 결과로부터 계산됩니다. 이는 happyhorse-1.0 Artificial Analysis Video Arena 리더보드 순위 산정에 사용되는 방법론입니다.

내부 평가 스위트

당사 내부 스위트는 광학 흐름 일관성(RAFT-large)을 통해 시간적 일관성을, 포즈 추정 파이프라인(ViTPose-H)을 통해 모션 품질을, 그리고 미세 조정된 CLIP-L/14 모델을 통해 프롬프트 준수도를 평가합니다. 모든 평가는 장면 유형, 모션 복잡도, 프롬프트 카테고리로 층화된 10,000개 클립 규모의 홀드아웃 테스트 세트에서 수행됩니다.

서드파티 재현 가능성

모든 내부 벤치마크 결과는 공개 GitHub 저장소에 있는 평가 스크립트를 사용해 재현할 수 있습니다. 테스트 세트의 프롬프트와 참조 메타데이터는 공개되어 있어, 연구자들이 여기에서 보고된 happyhorse-1.0 비디오 품질 점수를 독립적으로 검증할 수 있습니다.

서드파티 검증

Artificial Analysis Video Arena는 AI 영상 생성 모델에 대해 독립적인, 인간 선호 기반의 평가를 제공합니다. 순위는 수천 건의 평가에 걸친 쌍대 비교를 통해 결정됩니다.

— Artificial Analysis, Video Arena 방법론

1위 비디오 모델로 제작하세요

Happyhorse-1.0은 주요 벤치마크 전반에서 선두를 달립니다. API로 이용하거나 ComfyUI에 통합하고, 팀의 대규모 프로덕션 비디오 출시를 위해 설계된 유연한 요금제를 살펴보세요.