Posts 大模型推理技术栈
Post
Cancel

大模型推理技术栈

前言

影响LLM推理性能的因素有很多,包括但是不限于:模型配置、硬件类型、数据分布、优化算法、推理策略等。本位旨在综述各类技术点,后续会针对核心技术做详细展开。

image-20241220130643718

算法

LLM

参数建模

大模型计算建模

LLMs位置编码

Transformer

FlashAttention系列优化

MoEs算法&&部署概述

量化

LLMs量化算法概述

框架

开源的LLM推理框架有TensorRT-LLM、FasterTransformer、TGI、vLLM、NanoFlow、SGLANG等,以VLLM为例简单介绍下推理框架:

img

Serving策略

Orca-Continuous Batching策略

SGLang-Prefix Prompt Cache设计

Lora&&Multi-Lora

Prefill Decode分离部署

RLHF算法以及部署概述

Engine部署

PP&&TP LLMs部署

LLMs图编译概述

高性能算子

软件栈

算子编程模型

算子优化

GEMM算子优化

FlashAttention系列优化

中间件(TODO)

硬件系统

AI模型部署硬件综述

LLMs存储

集群通信

场景优化

LLM长文本优化策略

参考资料

揭秘 LLM 推理:全面解析 LLM 推理性能的关键因素

投机采样

Continuos——Batching

Qlora/GPTQ量化概述

LLM推理部署 - 量化(llm.int8,AWQ,GPTQ,SMOOTHQUANT)

谈谈对OpenAI Triton的一些理解

CUTLASS:Fast Linear Algebra in CUDA C++

一文搞懂TorchDynamo原理

混合专家模型(MoE)详解

LLM学习笔记-Deepspeed-MoE论文

大模型训练之序列并行双雄:DeepSpeed Ulysses & Ring-Attention

更适合flash attention体质的上下文训练方案

GPU工作原理解析

从现代GPU编程角度看SIMD与SIMT

x64 CPU GEMM优化

CUTLASS: Efficient GEMM in CUDA

深入浅出GPU优化系列:GEMM优化(一)

FlashAttention2详解(性能比FlashAttention提升20%)

This post is licensed under CC BY 4.0 by the author.

投机推理概述

LLMs图编译概述