·多模态理解大模型性能优化:飞桨通用优化策略:基于飞桨自研分布式并行,结合低比特权重量化和多卡并行推理策略,实现多模态大模型高效推理;Qwen2.5-VL 高性能推理:采用高性能算子融合策略与高效注意力算法,引入Token拒绝采样策略,显著提升推理效率,模型解码速度提升110%DeepSeek-VL2 高性能推理:通过高效MLA机制与长序列注意力机制量化加速,在保障精度下大幅提升计算性能,动态图推理相比PyTorch提升3倍以上。
·5月26日(周一)实战营将带你从环境准备开始,实操体验基于PaddleMIX框架的多模态理解理解大模型推理加速,感受PaddleMIX在模型推理方面的强大优势。
评价对象得分