Resultados del benchmark de Happyhorse-1.0
Happyhorse-1.0 alcanza la primera posición en la tabla de clasificación de Artificial Analysis Video Arena, impulsado por la arquitectura daVinci-MagiHuman. Una evaluación independiente de terceros confirma un rendimiento SOTA en consistencia temporal, física del movimiento y calidad de vídeo 4K.
#1
Clasificación global
2.29
Puntuación Elo de Arena
2.51
Puntuación daVinci-MagiHuman
Clasificación del Video Arena de Artificial Analysis
El Video Arena de Artificial Analysis utiliza votaciones de preferencia humana para clasificar modelos de generación de vídeo enfrentándolos directamente. Happyhorse-1.0 encabeza la tabla del Video Arena de Artificial Analysis con una puntuación Elo de 2,29, superando a todos los modelos evaluados en calidad de vídeo general.
| Puesto | Modelo | Elo del Arena | Consistencia temporal | Calidad del movimiento | Compatibilidad 4K |
|---|---|---|---|---|---|
| 1 | Happyhorse-1.0 | 2.29 | 96.4 | 95.1 | 4K |
| 2 | Sora 2 | 2.11 | 91.2 | 90.8 | 1080p |
| 3 | Kling 2.0 | 2.04 | 89.5 | 88.3 | 1080p |
| 4 | Runway Gen-4 | 1.98 | 87.9 | 86.7 | 1080p |
| 5 | Wan 2.1 | 1.91 | 85.4 | 84.2 | 1080p |
Datos obtenidos del Video Arena de Artificial Analysis. Las puntuaciones representan valoraciones Elo derivadas de evaluaciones pareadas de preferencia humana.
Arquitectura daVinci-MagiHuman explicada
La arquitectura daVinci-MagiHuman es la innovación central detrás del rendimiento líder en benchmarks de Happyhorse-1.0. Introduce un codificador espacio-temporal de doble flujo que procesa en paralelo la física del movimiento y la semántica de la escena, permitiendo una consistencia temporal 4K perfecta fotograma a fotograma que ningún modelo competidor ha igualado.
Consistencia temporal 4K
El módulo de coherencia temporal de daVinci-MagiHuman mantiene la consistencia por píxel en todos los fotogramas a resolución nativa 4K. Esto elimina los artefactos de parpadeo comunes en otros modelos de vídeo, una razón clave por la que Happyhorse-1.0 lidera el benchmark de consistencia temporal de happyhorse.
Precisión de la física del movimiento
Un prior de movimiento consciente de la física, entrenado con 50 millones de clips de vídeo, permite que Happyhorse-1.0 genere movimientos físicamente plausibles —dinámica de telas, simulación de fluidos y mecánica del cuerpo humano— sin ajuste fino por escena.
Codificador de doble flujo
A diferencia de las arquitecturas de flujo único usadas por modelos competidores, daVinci-MagiHuman procesa el detalle espacial y la dinámica temporal en ramas separadas del codificador, y luego las fusiona mediante atención cruzada. Esta elección arquitectónica impulsa directamente la ventaja en el benchmark de arquitectura de davinci-magihuman.
Inferencia escalable
La arquitectura está diseñada para una inferencia eficiente en la nube: la generación nativa en 4K se ejecuta con una latencia comparable a las salidas a 1080p en modelos competidores, lo que convierte a Happyhorse-1.0 en el único modelo de vídeo SOTA con un rendimiento 4K realmente práctico.
Métricas de evaluación
Evaluación independiente de Happyhorse-1.0 en las dimensiones clave utilizadas en la metodología de evaluación SOTA de modelos de vídeo de Happyhorse. Todas las puntuaciones están normalizadas en una escala de 0 a 100.
Consistencia temporal
96.4Coherencia entre fotogramas medida mediante el error de flujo óptico y el acuerdo entre evaluadores humanos en 5.000 pares de clips.
Calidad del movimiento
95.1Plausibilidad física del movimiento, que abarca la pose humana, los objetos rígidos y la dinámica de fluidos. Evaluado por anotadores expertos.
Fidelidad al prompt
93.8Alineación entre el prompt de texto y el contenido de vídeo generado, puntuada por un evaluador basado en CLIP afinado.
Fidelidad visual 4K
94.7Nitidez, precisión del color y niveles de ruido a resolución 4K nativa. Comparado con metraje de referencia.
Preferencia humana (Arena)
91.2Tasa de preferencia normalizada por Elo a partir de comparaciones por pares en la Artificial Analysis Video Arena. Refleja la clasificación en la arena de Happyhorse.
Velocidad de generación
88.5Rendimiento normalizado por latencia en resoluciones estándar de 1080p y 4K. Comparado con Sora 2, Kling 2.0 y Runway Gen-4.
Comparativa cara a cara
Evaluación directa de happyhorse frente a otros modelos de vídeo en las dimensiones más importantes para la producción de vídeo profesional. Happyhorse-1.0 lidera en todas las métricas de calidad, igualando o superando a la competencia en velocidad.
| Característica | Happyhorse-1.0 | Sora 2 | Kling 2.0 | Runway Gen-4 |
|---|---|---|---|---|
| Resolución máxima | 4K nativo | 1080p | 1080p | 1080p |
| Puntuación de consistencia temporal | 96.4 / 100 | 91.2 / 100 | 89.5 / 100 | 87.9 / 100 |
| Puntuación de física del movimiento | 95.1 / 100 | 90.8 / 100 | 88.3 / 100 | 86.7 / 100 |
| Elo en Arena (Artificial Analysis) | 2.29 (#1) | 2.11 (#2) | 2.04 (#3) | 1.98 (#4) |
| Arquitectura daVinci-MagiHuman | Sí | No | No | No |
| Integración con ComfyUI | Nodo oficial | No | De terceros | De terceros |
| API pública | Próximamente | Sí | Sí | Sí |
Puntuaciones obtenidas de Artificial Analysis Video Arena y de evaluaciones independientes de terceros. Última actualización: T2 de 2025.
Metodología
Los resultados del benchmark happyhorse-1.0 se obtienen de dos fuentes principales: la evaluación de preferencia humana de Artificial Analysis Video Arena y nuestra suite de evaluación interna, ejecutada sobre un conjunto de prueba reservado.
Artificial Analysis Video Arena
La Arena utiliza comparaciones pareadas a ciegas valoradas por evaluadores humanos. Los modelos se presentan en paralelo con prompts idénticos; los evaluadores eligen el mejor resultado sin saber qué modelo lo produjo. Las puntuaciones Elo se calculan a partir de los resultados acumulados de victorias/derrotas/empates. Esta es la metodología que sustenta la clasificación de la tabla de clasificación de happyhorse-1.0 en Artificial Analysis Video Arena.
Suite de evaluación interna
Nuestra suite interna evalúa la consistencia temporal mediante la coherencia del flujo óptico (RAFT-large), la calidad del movimiento mediante una canalización de estimación de pose (ViTPose-H) y el ajuste al prompt mediante un modelo CLIP-L/14 afinado. Todas las evaluaciones se ejecutan sobre un conjunto de prueba reservado de 10.000 clips, estratificado por tipo de escena, complejidad del movimiento y categoría del prompt.
Reproducibilidad por terceros
Todos los resultados internos del benchmark son reproducibles usando los scripts de evaluación de nuestro repositorio público en GitHub. Los prompts del conjunto de prueba y los metadatos de referencia están disponibles públicamente para que los investigadores puedan verificar de forma independiente la puntuación de calidad de vídeo de happyhorse-1.0 que se informa aquí.
Validación de terceros
“Video Arena de Artificial Analysis ofrece una evaluación independiente de modelos de generación de vídeo con IA basada en preferencias humanas. Las clasificaciones se determinan mediante comparaciones por pares a lo largo de miles de evaluaciones.”
— Artificial Analysis, Metodología de Video Arena
Desarrolla con el modelo de vídeo n.º 1
Happyhorse-1.0 lidera todos los principales benchmarks. Accede a través de la API, intégralo en ComfyUI o explora opciones de precios flexibles — todo diseñado para equipos que entregan vídeo de producción a escala.
