PaddleMIX-Wan2.1&HunyuanVideo多模态视频生成模型

·多模态文生视频模型：Wan2.1模型结合扩散变换器（DiT）与流匹配，利用交叉注意力嵌入文本条件；融入时空注意力机制，增强模型捕捉复杂动态的能力。HunyuanVideo模型：融合Causal 3D VAE、Large Language Models以及diffusion backbone架构，确保高质量的视觉效果、运动动态和文本-视频对齐，超越Runway Gen-3等领先模型。

·4月28日（周一）实战营将带你从环境准备开始，实操体验基于PaddleMIX框架的多模态文生视频模型Wan2.1和HunyuanVideo，感受其在多模态生成任务场景的出色表现。