Lora&&Multi-Lora Paper MULTILORA: DEMOCRATIZING LORA FOR BETTER MULTI-TASK LEARNING S-LoRA: SERVING THOUSANDS OF CONCURRENT LORA ADAPTERS Motivation PEFT降低了大模型fine-tuning的硬件算力需求,比较常见如:...
Prefill Decode分离部署
Prefill Decode分离部署 Background Prefill和Decode两阶段的计算Pattern完全不一致:Prefill属于计算密集型任务,Decode属于IO密集型任务。 Prefill和Decode混跑情况下,Prefill会打断Decode推理,无法更好的Batching,Decode的Batch数上限降低,几种混跑的策略如下:都存在一定问题: Req...
SGLang-Prefix_Prompt_Cache设计
SGLang-Prefix Prompt Cache设计 Paper SGLang: Efficient Execution of Structured Language Model Prpgrams Motivation 多轮对话中,由于Prompts存在大量相同前缀,因此 Prefix prompt cache 的复用就显得很重要:需要考虑:efficient prefix se...
MoEs算法&&部署概述
MoEs(Mixed Expert Models) MoEs最早由Switch Transformer提出,核心结构由稀疏MoE层和门控网络或者路由组成: [y = \sum_{i=1}^{n} g_i(x) \cdot f_i(x)] 其中:$n$为专家数量;$g_i(x)$为门控网络对第$i$ 个专家的权重;$f_i(x)$ 是第$i$个专家对输入的输出。 稀疏 ...
PP&&TP LLMs部署
PP&&TP LLMs部署 训练场景,并行策略有DP/TP/PP/EP等策略,也有不同并行策略的组合,以及Zero等OffLoad的策略。 对于推理而言,最常用的是TP/PP策略。 TP最常用的策略主要在MLP/Self-Attention(num_head切分)进行切分,整体为:col-spllit->row-split->all-reduce。 从参数量...
Orca-Continuous Batching策略
Orca-Continuous Batching策略 Paper Orca: A Distributed Serving System for Transformer-Based Generative Models LLM推理主要氛围Prefill/Decode阶段,其中Prefill阶段为Compute Bound,Decode阶段为Memory-IO Bound,意味着需要充分利用...
LLMs图编译概述
LLMs图编译概述 图编译优化主要是围绕AI编译器来实现的,整体框架可参考:The Deep Learning Compiler: A Comprehensive Survey: LLMs图优化 对于LLM来说,本身模型结构的变化不大,意味着图层面的优化策略是比较通用的,如: Quant算子的融合/PointWise算子融合/自定义融合算子等,所以常用的策略是复用PyTorch等...
大模型推理技术栈
前言 影响LLM推理性能的因素有很多,包括但是不限于:模型配置、硬件类型、数据分布、优化算法、推理策略等。本位旨在综述各类技术点,后续会针对核心技术做详细展开。 算法 LLM 参数建模 大模型计算建模 LLMs位置编码 Transformer FlashAttention系列优化 MoEs算法&&部署概述 量化 LLMs量化算法概述 框架 开源的...
投机推理概述
投机推理概述 Paper MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads A Hitchhiker’s Guide to Speculative Decoding Motivation LLM的decoding阶段通常会受限于显存带宽(memory-bandwidth-b...
大模型计算建模
前言 参数量 计算量 显存占用 参考资料 前言 本文主要介绍Transformer类大模型训练/推理过程中的计算量/显存占用情况,因为对于大模型推理/训练而言,计算量决定了模型的训练/推理速度,显存占用情况决定了可供训练/推理的数据量(更大的显存能够并行跑更多的数据或者更长的序列)。 对于LLMs(Large Language Models)而言,模型结构整体趋同...