51CTO-崔浩-LLM 推理优化与部署实战

资源描述:

《LLM推理优化与部署实战》是一门由崔浩主讲、面向中高级AI工程师的硬核技术课程，旨在系统性地解决大语言模型在生产环境中的推理效率与部署难题。课程内容深入且结构化，分为三大核心模块理论基石（LLM推理阶段、KVCache原理、性能指标TTFT/TPS等）、优化策略（模型量化AWQ/GPTQ、剪枝蒸馏、MQA/GQA注意力机制、FlashAttention、PagedAttention、持续批处理）以及部署实战（vLLM分布式推理集群搭建、TensorRT-LLM量化与评测、LLMCompressor工具链应用）。课程最大特点是理论与实践深度结合，在透彻讲解底层原理（如GPU运算、内存估算）之后，手把手指导学员进行显卡驱动配置、Docker部署、量化脚本执行与性能评测，帮助学员掌握从模型压缩、运行时加速到生产级分布式部署的完整技能栈。

更新时间:2026-03-10 22:36:33