开坑模型离线部署技术相关内容更新 简单梳理技术栈如下(需要持续更新):
PyTorch关键模块解读
ONNX的模型优化与量化细节
AI模型部署硬件综述
Transformer离线部署-GPU优化策略
前言 FlashAttentionV1 前置背景 算法设计 FlashAttentionV2 PagedAttention 参考材料 前言 简单介绍各类AttentionScore优化算法(待完整梳理)。 FlashAttentionV1 FlashAttention于2022年6月由斯坦福大学、纽约州立大学研...
前言 参数量 计算量 显存占用 参考资料 前言 本文主要介绍Transformer类大模型训练/推理过程中的计算量/显存占用情况,因为对于大模型推理/训练而言,计算量决定了模型的训练/推理速度,显存占用情况决定了可供训练/推理的数据量(更大的显存能够并行跑更多的数据或者更长的序列)。 对于LLMs(Large Language Models)而言,模型结构整体趋同...
前言 LLMs计算建模 开源框架分析 框架优化 Continuous Batching Prefix prompt cache MultiLora Speculative decoding Pipeline/Tensor parallism PD Seperate ChunkPre...
FlashAttention系列优化