近日,深度求索(DeepSeek)团队宣布推出其最新研发的Flash Multi-Head Latent Attention(Flash MLA)技术,为自然语言处理领域带来了重大突破。这项技术创新性地优化了大语言模型的注意力机制,显著降低了计算复杂度并提升了模型效率。
据官方介绍,Flash MLA通过创新算法将每个查询与键值对的计算量减少了93.3%,大幅降低了推理阶段的成本和硬件资源消耗。这一技术不仅使模型能够更高效地处理长上下文文本,还在性能上接近甚至超越了行业顶尖模型如谷歌Gemini 2.0 Flash Thinking。
此外,Flash MLA技术显著提升了硬件利用率,在高性能GPU(如Hopper架构的H100)上的表现尤为突出。目前,已有超过5万台Hopper GPU用于支持该项技术的研究与应用,总投资额达到5亿美元。这一技术的发布不仅推动了AI技术的发展,也为行业带来了新的发展机遇。
DeepSeek团队表示,Flash MLA的成功标志着其在大语言模型优化领域的又一重要突破,未来将继续致力于推动AI技术的创新与落地。
近日,深度求索(DeepSeek)团队宣布推出其最新研发的Flash Multi-Head Latent Attention(Flash MLA)技术,为自然语言处理领域带来了重大突破。这项技术创新性地优化了大语言模型的注意力机制,显著降低了计算复杂度并提升了模型效率。
据官方介绍,Flash MLA通过创新算法将每个查询与键值对的计算量减少了93.3%,大幅降低了推理阶段的成本和硬件资源消耗。这一技术不仅使模型能够更高效地处理长上下文文本,还在性能上接近甚至超越了行业顶尖模型如谷歌Gemini 2.0 Flash Thinking。
此外,Flash MLA技术显著提升了硬件利用率,在高性能GPU(如Hopper架构的H100)上的表现尤为突出。目前,已有超过5万台Hopper GPU用于支持该项技术的研究与应用,总投资额达到5亿美元。这一技术的发布不仅推动了AI技术的发展,也为行业带来了新的发展机遇。
DeepSeek团队表示,Flash MLA的成功标志着其在大语言模型优化领域的又一重要突破,未来将继续致力于推动AI技术的创新与落地。
FlashMLA开源项目地址:https://github.com/deepseek-ai/FlashMLA