开坑模型离线部署技术相关内容更新 简单梳理技术栈如下(需要持续更新):
PyTorch关键模块解读
ONNX的模型优化与量化细节
AI模型部署硬件综述
Transformer离线部署-GPU优化策略
前言 FlashAttentionV1 前置背景 算法设计 FlashAttentionV2 PagedAttention 参考材料 前言 简单介绍各类AttentionScore优化算法(待完整梳理)。 FlashAttentionV1 FlashAttention于2022年6月由斯坦福大学、纽约州立大学研...
前言 参数量 计算量 显存占用 参考资料 前言 本文主要介绍Transformer类大模型训练/推理过程中的计算量/显存占用情况,因为对于大模型推理/训练而言,计算量决定了模型的训练/推理速度,显存占用情况决定了可供训练/推理的数据量(更大的显存能够并行跑更多的数据或者更长的序列)。 对于LLMs(Large Language Models)而言,模型结构整体趋同...
目录 前言 torch.autograd: 梯度计算 BN & SyncBN: BN与多卡同步BN torch.utils.data: 解析数据处理全流程 nn.Module: 核心网络模块接口 DP & DDP: 模型并行和分布式训练 torch.optim: 优化算法接口 torch.cuda.amp: 自动混合精度 cpp_ext...
FlashAttention系列优化