Skip to content

Releases: alibaba/Pai-Megatron-Patch

v0.10.2

24 Jan 03:22
3b90f68
Compare
Choose a tag to compare

--升级DeepSeek-V2-MoE模型最佳实践为接入DeepSeek-V3-MoE的工程加速过渡。
--拓展Qwen2-VL模型以支持序列并行、虚拟流水并行及TP-Comm-Overlap特性。
--修复已知的issues。

v0.10.1

03 Jan 06:35
d7cab4e
Compare
Choose a tag to compare

--升级Qwen2-VL模型以支持MG2HF检查点转换,并能够使用多轮复杂的多模态样本进行训练。

v0.10.0

29 Nov 06:32
20c4a95
Compare
Choose a tag to compare

--添加Mcore版本的Qwen2-VL多模态大模型最佳实践。
--添加Mcore版本的LLava多模态大模型最佳实践。
--修复模型并行训练时hang等Issues。

v0.9.3

30 Oct 06:35
bf582d8
Compare
Choose a tag to compare

--优化Qwen2/2.5模型的微调效果,解决梯度累计下的长短样本导致的loss计算问题。
--添加预览版的大模型训练最优吞吐参数配置。
--修复DeepSeekV2的Tokenizer的Issue。
--修复Qwen2/2.5的TE2HF转换Issue。
--修复模型转换体积过大的Issue。

v0.9.2

27 Sep 02:23
bcb69cb
Compare
Choose a tag to compare

--支持热门模型微调时采用Sequence Packing加速技术。
--支持用Megatron-Core框架训练Qwen2.5系列模型。
--升级Deepseek-V2-MoE系列模型支持TE版的MLA以及流水并行CKPT转换。
--修复已知的Bugs。

v0.9.1

30 Aug 03:00
7c3dc6b
Compare
Choose a tag to compare

--添加LLama3.1最佳实践支持最新的Flash-Attention 3, Offloading, Comm-Overlapping等加速技术。
--升级Qwen2最佳实践支持最新的Flash-Attention 3, Offloading, Comm-Overlapping等加速技术。
--优化PAI算法团队自研的Optimizer Offloading的降显存效果以及吞吐性能。
--修复已知的Bugs。

v0.9.0

26 Jul 06:49
f335d9e
Compare
Choose a tag to compare

--添加基于MPI的分布式训练方式,用以支持Mcore的tp-comm-overlap加速开关。
--添加基于Distributed Optimizer改进的OffloadDistributedOptimizer,用以支持大模型&长序列训练时参数/梯度Cpu Offload降显存。
--添加微调训练使用IdxMap数据格式,用以支持70B大模型的打开TP/PP时高效微调。
--修复已知的Bugs。

v0.8.3

28 Jun 03:30
0ac48a0
Compare
Choose a tag to compare

--添加Qwen-2-Dense/MoE的Mcore实现的最佳实践。
--添加Qwen2系列模型增强型基于Mcore算子赋值技术的模型转换(逐算子逐层前向精度比对,转换浮点控制,支持算子拆分/专家并行/流水并行)
--优化Qwen-2-Dense/MoE的Loss收敛可靠性。
--优化DeepSeek-V2-MoE的收敛效果,支持模型并行的MLA的Loss收敛可靠性问题彻底解决。
--Qwen2的Tokenizer重构支持对接新版Mcore0.7.0。
--修复已知的Bugs。

v0.8.2

31 May 06:44
8be40a3
Compare
Choose a tag to compare

--添加Qwen-1.5-MoE的Mcore实现。
--添加DeepSeek-V2-MoE的Mcore实现。
--优化MoE的Quick Start使用教程
--修复已知的Bugs。

v0.8.1

26 Apr 08:00
0ab8902
Compare
Choose a tag to compare

--添加LLama3,Mistral,Qwen1.5热门大模型在四种工具链模式上的11款Quick Starts。
--接入llama3模型同时支持Megatron-LM和Megatron Core。
--接入Qwen1.5 32B同时支持Megatron-LM和Megatron Core。
--接入MegaBlocks MoE训练流程。
--通过重新梳理整个训练流程,排查各个环节潜在出错并和HF进行精准对齐后继续预训练/微调效果优化取得进展。
--修复已知的Bugs。