DeepSeek开源周合集

周一:FlashMLA,核心成就:GPU带宽利用接近理论极限,算力利用效率翻倍;

周二:DeepEP,一个高效的MOE架构专家并行通信库:

        支持高效且优化后的全对全通信
        使用NVlink和RDMA进行节点内和节点间通信
        用于训练和推理填充的高吞吐量内核
        用于推理解码的低延迟内核
        原生支持FP8操作
        实现灵活的GPU资源控制,实现计算与通信重叠

周三:DeepGEMM,一个通用的GEMM广义矩阵乘法库,支持FP8精度,V3和R1高效训练和推理的武器之一:

        同时支持Dense密集架构和MOE稀疏架构
        完全支持JIT(Just-In-Time)实时编译,无需预编译
        专为NVIDIA Hopper Tensor Core设计,解决FP8累加精度不准问题
        核心代码仅约300行,在大多数矩阵尺寸下优于其它面向MOE优化的内核

周四:一组性能优化相关的算法库及性能分析数据包
        DualPipe:新的双向管道并行算法,用于实现训练中的计算-通信重叠
        EPLB:用于V3和R1的专家负载均衡器,层次负载均衡+全局负载均衡
        性能分析数据包。

周五:明日更新
亦可关注《DeepSeek认知之旅》的文档更新!
《DeepSeek认知之旅》文档链接:https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?openbrd=1&doc_app_id=501&blockId=doxcncVubbqQeHtN9klREuWVgUQ&blockType=whiteboard&blockToken=KrGqwrZKDh2PkpbNR6hcWn2Rn7b#doxcncVubbqQeHtN9klREuWVgUQ

你可能感兴趣的:(人工智能,transformer,chatgpt,文心一言,python,scikit-learn,深度学习)