Cancel

LLM长文本优化策略

LLM长文本优化策略长文本对LLM带来的挑战主要在于显存上的，核心原因是：原始Attention的计算过程中，中间变量的大小是$O(N^2)$增长的，可以通过FlashAttention的Tiling设计来降低中间变量显存为$O(\frac {N ^ 2}{M})$，$KV_Cache$和FFN层的激活都为$O(N)$，所以核心思路是降低$sequence\ length$，主要有以...

Dec 4, 2024 2024-12-04T18:46:50+08:00 3 min

Lora&&Multi-Lora

Lora&&Multi-Lora Paper MULTILORA: DEMOCRATIZING LORA FOR BETTER MULTI-TASK LEARNING S-LoRA: SERVING THOUSANDS OF CONCURRENT LORA ADAPTERS Motivation PEFT降低了大模型fine-tuning的硬件算力需求，比较常见如：...

Nov 29, 2024 2024-11-29T18:28:50+08:00 2 min

Prefill Decode分离部署

Prefill Decode分离部署 Background Prefill和Decode两阶段的计算Pattern完全不一致：Prefill属于计算密集型任务，Decode属于IO密集型任务。 Prefill和Decode混跑情况下，Prefill会打断Decode推理，无法更好的Batching，Decode的Batch数上限降低，几种混跑的策略如下：都存在一定问题： Req...

Nov 25, 2024 2024-11-25T18:34:50+08:00 3 min

SGLang-Prefix_Prompt_Cache设计

SGLang-Prefix Prompt Cache设计 Paper SGLang: Efficient Execution of Structured Language Model Prpgrams Motivation 多轮对话中，由于Prompts存在大量相同前缀，因此 Prefix prompt cache 的复用就显得很重要：需要考虑：efficient prefix se...

Nov 19, 2024 2024-11-19T18:26:50+08:00 1 min

MoEs算法&&部署概述

MoEs（Mixed Expert Models） MoEs最早由Switch Transformer提出,核心结构由稀疏MoE层和门控网络或者路由组成： [y = \sum_{i=1}^{n} g_i(x) \cdot f_i(x)] 其中：$n$为专家数量；$g_i(x)$为门控网络对第$i$ 个专家的权重；$f_i(x)$ 是第$i$个专家对输入的输出。稀疏 ...

Oct 19, 2024 2024-10-19T18:16:50+08:00 3 min

PP&&TP LLMs部署

PP&&TP LLMs部署训练场景，并行策略有DP/TP/PP/EP等策略，也有不同并行策略的组合，以及Zero等OffLoad的策略。对于推理而言，最常用的是TP/PP策略。 TP最常用的策略主要在MLP/Self-Attention（num_head切分）进行切分，整体为：col-spllit->row-split->all-reduce。从参数量...

Oct 7, 2024 2024-10-07T18:36:50+08:00 1 min

Orca-Continuous Batching策略

Orca-Continuous Batching策略 Paper Orca: A Distributed Serving System for Transformer-Based Generative Models LLM推理主要氛围Prefill/Decode阶段，其中Prefill阶段为Compute Bound，Decode阶段为Memory-IO Bound，意味着需要充分利用...

Oct 6, 2024 2024-10-06T18:25:50+08:00 2 min

LLMs图编译概述

LLMs图编译概述图编译优化主要是围绕AI编译器来实现的，整体框架可参考：The Deep Learning Compiler: A Comprehensive Survey: LLMs图优化对于LLM来说，本身模型结构的变化不大，意味着图层面的优化策略是比较通用的，如： Quant算子的融合/PointWise算子融合/自定义融合算子等，所以常用的策略是复用PyTorch等...

Oct 5, 2024 2024-10-05T18:38:50+08:00 3 min

大模型推理技术栈

前言影响LLM推理性能的因素有很多，包括但是不限于：模型配置、硬件类型、数据分布、优化算法、推理策略等。本位旨在综述各类技术点，后续会针对核心技术做详细展开。算法 LLM 参数建模大模型计算建模 LLMs位置编码 Transformer FlashAttention系列优化 MoEs算法&&部署概述量化 LLMs量化算法概述框架开源的...

Oct 4, 2024 2024-10-04T19:00:00+08:00 2 min

投机推理概述

投机推理概述 Paper MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads A Hitchhiker’s Guide to Speculative Decoding Motivation LLM的decoding阶段通常会受限于显存带宽(memory-bandwidth-b...

Oct 2, 2024 2024-10-02T18:30:50+08:00 2 min

热门标签