前言 LLMs计算建模 开源框架分析 框架优化 Continuous Batching Prefix prompt cache MultiLora Speculative decoding Pipeline/Tensor parallism PD Seperate ChunkPre...
大模型计算建模
前言 参数量 计算量 显存占用 参考资料 前言 本文主要介绍Transformer类大模型训练/推理过程中的计算量/显存占用情况,因为对于大模型推理/训练而言,计算量决定了模型的训练/推理速度,显存占用情况决定了可供训练/推理的数据量(更大的显存能够并行跑更多的数据或者更长的序列)。 对于LLMs(Large Language Models)而言,模型结构整体趋同...
FlashAttention系列优化
前言 FlashAttentionV1 前置背景 算法设计 FlashAttentionV2 PagedAttention 参考材料 前言 简单介绍各类AttentionScore优化算法(待完整梳理)。 FlashAttentionV1 FlashAttention于2022年6月由斯坦福大学、纽约州立大学研...
模型部署技术概览
前言 深度学习框架 训练框架 Torch Tensorflow 推理框架 ONNX TensorRT AI硬件 深度学习编译器 算法 ...
AI模型部署硬件综述
硬件篇 GPU NVIDIA 壁仞科技 XPU Google-TPU 晟腾 昆仑 寒武纪 软件篇 ...
Goolge-TPU论文解读
文章背景 摘要 设计方案 性能结果 Discussion && Conclusion 个人观点 参考 文章背景 In-Datacenter Performance Analysis of a Tensor Processing Unit 发表于ISCA2017,主要介绍Google TPU的架构。 摘要 Google从2013年发现,大...
Transformer离线部署-GPU优化策略
前言 模型结构分析 具体优化措施 参考资料 前言 本文主要介绍Transformer类网络在GPU设备上部署上的优化要点。 主要围绕Nvidia开源的FasterTransformer展开。 模型结构分析 标准的Transformer结构主要包括 Encoder 和 Decoder 两部分结构,具体结构分析可参考Transformer在CV领域的应用与部署: ...
Bert:过去-现在-未来
前言 BERT发展历程 BERT算法细节 BERT后期发展 参考资料 前言 浅谈 BERT 系列网络,主要从三个维度介绍:发展历程、算法细节、后期发展。 背景知识: 自然语言处理(NLP):其最终目的是理解复杂的语言/文字,主要任务包括: 序列标注:如中文分词、词性标注、命名实体识别、语义角色标注等 分类任务:文本分类、情感分析等 句子关系判断:如...
设计模式-设计原则
基本介绍 SOLID原则 单一职责原则 开放封闭原则 里氏替换原则 依赖倒置原则 接口隔离原则 其他原则 LoD原则 KISS原则 DRY原则 YAGBI原则 Rule Of Three原则 CQS原则 ...
设计模式-MVC模式
概念解析 实例分析 概念解析 MVC模式为软件工程中的一种常用软件架构模式,但是并没有一个标准的定义,通常来将其将软件系统分为三个基本部分:模型(Model)、视图(View)和控制器(Controller)。 M:负责数据存储 V:负责数据显示 C:负责与用户的交互逻辑。 MVC模式类图如下: 优点: 低耦合性,软件分层,可以独立发展,方便...