集合通信原理主要介绍在 AI 集群或者大模型训练、推理的过程中,使用到的通信原理涉及相关知识,如什么是通信域、通信算法、集合通信原语的类型,除了集合通信的基本原理,还会介绍 AI 集群通信过程中相关的硬件介质,如片内互联、片外互联或者叫带内带外互联的方式方法。
PPT
和字幕
需要到 Github 下载,网页课程版链接会失效哦~建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
大纲 | 小节 | 链接 |
---|---|---|
集合通信原理 | 01 大模型集合通信介绍 | PPT, 视频 |
集合通信原理 | 02 为什么需要集合通信 | PPT, 视频 |
集合通信原理 | 03 集合通信操作/原语/算子 | PPT, 视频 |
集合通信原理 | 04 AI 对集合通信算法诉求 | PPT, 视频 |
集合通信原理 | 05 大模型集合通信算法细节 | PPT, 视频 |
集合通信原理 | 06 通信域与PyTorch实现 | PPT, 视频 |
集合通信原理 | 07 AI芯片内互联技术 | PPT, 视频 |
集合通信原理 | 08 大模型集群互联技术 | PPT, 视频 |
文字课程内容正在一节节补充更新,每晚会抽空继续更新正在 AISys ,希望您多多鼓励和参与进来!!!
文字课程开源在 AISys,系列视频托管B 站和油管,PPT 开源在github,欢迎取用!!!
非常希望您也参与到这个开源课程中,B 站给 ZOMI 留言哦!
欢迎大家使用的过程中发现 bug 或者勘误直接提交代码 PR 到开源社区哦!
希望这个系列能够给大家、朋友们带来一些些帮助,也希望自己能够继续坚持完成所有内容哈!