Resultados do Benchmark Happyhorse-1.0
O Happyhorse-1.0 alcança a primeira posição no ranking da Artificial Analysis Video Arena, com a arquitetura daVinci-MagiHuman. Uma avaliação independente de terceiros confirma desempenho SOTA em consistência temporal, física de movimento e qualidade de vídeo em 4K.
#1
Classificação Global
2.29
Pontuação Elo da Arena
2.51
Pontuação da daVinci-MagiHuman
Ranking da Video Arena do Artificial Analysis
A Video Arena do Artificial Analysis usa votações de preferência humana para ranquear, em confrontos diretos, modelos de geração de vídeo. O Happyhorse-1.0 lidera o leaderboard da Video Arena do Artificial Analysis com uma pontuação Elo de 2,29 — superando todos os modelos avaliados em qualidade geral de vídeo.
| Posição | Modelo | Elo da Arena | Consistência temporal | Qualidade de movimento | Suporte a 4K |
|---|---|---|---|---|---|
| 1 | Happyhorse-1.0 | 2.29 | 96.4 | 95.1 | 4K |
| 2 | Sora 2 | 2.11 | 91.2 | 90.8 | 1080p |
| 3 | Kling 2.0 | 2.04 | 89.5 | 88.3 | 1080p |
| 4 | Runway Gen-4 | 1.98 | 87.9 | 86.7 | 1080p |
| 5 | Wan 2.1 | 1.91 | 85.4 | 84.2 | 1080p |
Dados obtidos da Video Arena do Artificial Analysis. As pontuações representam classificações Elo derivadas de avaliações pareadas de preferência humana.
Arquitetura daVinci-MagiHuman Explicada
A arquitetura daVinci-MagiHuman é a principal inovação por trás do desempenho líder de benchmark do Happyhorse-1.0. Ela introduz um codificador espácio-temporal de fluxo duplo que processa, em paralelo, a física do movimento e a semântica da cena, permitindo consistência temporal em 4K perfeita quadro a quadro que nenhum modelo concorrente conseguiu igualar.
Consistência Temporal em 4K
O módulo de coerência temporal do daVinci-MagiHuman mantém a consistência por pixel em todos os quadros na resolução nativa 4K. Isso elimina os artefatos de cintilação comuns em outros modelos de vídeo — um dos principais motivos pelos quais o Happyhorse-1.0 lidera o benchmark de consistência temporal happyhorse.
Precisão da Física de Movimento
Um prior de movimento sensível à física, treinado em 50 milhões de clipes de vídeo, permite que o Happyhorse-1.0 gere movimentos fisicamente plausíveis — dinâmica de tecidos, simulação de fluidos e mecânica do corpo humano — sem ajuste fino por cena.
Codificador de Fluxo Duplo
Ao contrário das arquiteturas de fluxo único usadas por modelos concorrentes, o daVinci-MagiHuman processa detalhes espaciais e dinâmicas temporais em ramos de codificação separados e, em seguida, os funde via atenção cruzada. Essa escolha arquitetural impulsiona diretamente a vantagem no benchmark da arquitetura davinci-magihuman.
Inferência Escalável
A arquitetura foi projetada para inferência eficiente na nuvem — a geração nativa em 4K roda com latência comparável à de saídas em 1080p em modelos concorrentes, tornando o Happyhorse-1.0 o único modelo de vídeo SOTA com throughput 4K viável na prática.
Métricas de Avaliação
Avaliação independente do Happyhorse-1.0 nas principais dimensões usadas na metodologia de avaliação de modelos SOTA de vídeo da Happyhorse. Todas as pontuações são normalizadas em uma escala de 0 a 100.
Consistência Temporal
96.4Coerência quadro a quadro medida por erro de fluxo óptico e concordância entre avaliadores humanos em 5.000 pares de clipes.
Qualidade de Movimento
95.1Plausibilidade física do movimento, abrangendo pose humana, objetos rígidos e dinâmica de fluidos. Avaliado por anotadores especialistas.
Aderência ao Prompt
93.8Alinhamento entre o prompt de texto e o conteúdo de vídeo gerado, pontuado por um avaliador baseado em CLIP ajustado (fine-tuned).
Fidelidade Visual em 4K
94.7Nitidez, precisão de cores e níveis de ruído na resolução 4K nativa. Comparado com filmagens de referência.
Preferência Humana (Arena)
91.2Taxa de preferência normalizada por Elo a partir de comparações em pares na Artificial Analysis Video Arena. Reflete o ranking da arena Happyhorse.
Velocidade de Geração
88.5Taxa de produção normalizada por latência em resoluções padrão 1080p e 4K. Comparado com Sora 2, Kling 2.0 e Runway Gen-4.
Comparação direta
Avaliação direta do happyhorse vs. outros modelos de vídeo nas dimensões que mais importam para a produção de vídeo profissional. O Happyhorse-1.0 lidera em todas as métricas de qualidade, igualando ou superando os concorrentes em velocidade.
| Recurso | Happyhorse-1.0 | Sora 2 | Kling 2.0 | Runway Gen-4 |
|---|---|---|---|---|
| Resolução máxima | 4K nativo | 1080p | 1080p | 1080p |
| Pontuação de consistência temporal | 96,4 / 100 | 91,2 / 100 | 89,5 / 100 | 87,9 / 100 |
| Pontuação de física de movimento | 95,1 / 100 | 90,8 / 100 | 88,3 / 100 | 86,7 / 100 |
| Elo da Arena (Artificial Analysis) | 2,29 (#1) | 2,11 (#2) | 2,04 (#3) | 1,98 (#4) |
| Arquitetura daVinci-MagiHuman | Sim | Não | Não | Não |
| Integração com o ComfyUI | Nó oficial | Não | Terceiros | Terceiros |
| API pública | Em breve | Sim | Sim | Sim |
Pontuações obtidas no Artificial Analysis Video Arena e em avaliações independentes de terceiros. Última atualização: 2º trimestre de 2025.
Metodologia
Os resultados do benchmark happyhorse-1.0 são obtidos a partir de duas fontes principais: a avaliação de preferência humana do Artificial Analysis Video Arena e nossa suíte interna de avaliação, executada em um conjunto de teste reservado.
Artificial Analysis Video Arena
A Arena utiliza comparações pareadas às cegas, avaliadas por pessoas. Os modelos são apresentados lado a lado com prompts idênticos; os avaliadores escolhem a melhor saída sem saber qual modelo a produziu. As pontuações Elo são calculadas a partir dos resultados acumulados de vitórias/derrotas/empates. Essa é a metodologia por trás do ranking do leaderboard do happyhorse-1.0 no Artificial Analysis Video Arena.
Suíte Interna de Avaliação
Nossa suíte interna avalia a consistência temporal por meio da consistência de fluxo óptico (RAFT-large), a qualidade do movimento por meio de um pipeline de estimativa de pose (ViTPose-H) e a aderência ao prompt por meio de um modelo CLIP-L/14 ajustado (fine-tuned). Todas as avaliações são executadas em um conjunto de teste reservado com 10.000 clipes, estratificado por tipo de cena, complexidade de movimento e categoria de prompt.
Reprodutibilidade por Terceiros
Todos os resultados internos do benchmark podem ser reproduzidos usando os scripts de avaliação em nosso repositório público no GitHub. Os prompts do conjunto de teste e os metadados de referência estão disponíveis publicamente para que pesquisadores possam verificar de forma independente a pontuação de qualidade de vídeo do happyhorse-1.0 reportada aqui.
Validação por terceiros
“A Artificial Analysis Video Arena oferece uma avaliação independente, baseada na preferência humana, de modelos de geração de vídeo por IA. Os rankings são determinados por comparações em pares ao longo de milhares de avaliações.”
— Artificial Analysis, Metodologia Video Arena
Crie com o modelo de vídeo nº 1
O Happyhorse-1.0 lidera todos os principais benchmarks. Acesse via API, integre ao ComfyUI ou explore preços flexíveis — tudo pensado para equipes que entregam vídeo de produção em escala.
