5月10日,北京,一场硬核技术沙龙即将开启。
SGLang、TileLang、Triton、Mooncake等技术大牛,将齐聚一堂,深度探讨「SGLang × MUSA」落地实践,分享推理引擎、算子编译和工程优化的硬核干货。
无论你是框架开发者、算子工程师,还是关注国产GPU生态的AI从业者,将有机会与技术专家进行深度交流,获取行业前沿洞察。(扫描文末二维码报名或预约直播)
这场Meetup的契机,源于一个重磅消息:摩尔线程MUSA后端,正式加入全球领先的开源推理框架SGLang的官方支持体系,相关代码也已成功合入SGLang主线。

图注:SGLang GitHub官方仓库展示的 Moore Threads(MUSA)GPU 支持开发规划与路线图
代码合入SGLang主线,标志着摩尔线程全功能GPU获得SGLang“原生支持”(First-Class Support),成为官方后端矩阵一员。
现在,无论是用SGLang框架本体sglang、高性能算子库sgl-kernel,还是多模态生成组件multimodal_gen,开发者均可原生调用摩尔线程GPU,享受极致性能优化。
▼SGLang 开源地址:https://github.com/sgl-project/sglang
▼SGLang × MUSA Roadmap 地址:https://github.com/sgl-project/sglang/issues/16565
打破壁垒:
国产GPU融入全球开源生态
SGLang是业界领先的大语言模型推理与服务框架,凭借卓越的吞吐性能和灵活的编程接口,受到开发者广泛关注。
此次,摩尔线程贡献的MUSA后端,原生支持MUSA架构的算子加速与显存管理,同时开源MATE算子库,为SGLang在摩尔线程GPU上的高效运行提供了坚实的核心性能支撑。开发者在AI训推一体智算卡MTT S5000上运行DeepSeek、Qwen等主流模型,可实现“开箱即用”的推理加速。
摩尔线程进入SGLang官方后端矩阵,不仅意味着国产GPU在生态适配上拥有更充分、更直接的兼容路径,也为中文AI社区提供了一条基于国产硬件的高性能推理路径。
开发者只需克隆 SGLang 官方仓库,并执行以下命令,即可获得同时支持大语言模型(LLM)与多模态模型(文生图/文生视频等)的运行能力:
安装 SGLang kernel(MUSA支持):python setup_musa.py install
安装SGLang及其完整MUSA依赖环境:pip install “python[all_musa]”
未来,随着SGLang官方发布针对MUSA架构优化的正式sglang-kernel build,还可以通过以下命令安装专为摩尔线程硬件优化的kernel版本:pip install sglang-kernel –index-url https://docs.sglang.io/whl/musa<<version>>
MUSA开源技术沙龙:SGLang × MUSA Meetup
为庆祝这一重要合作,摩尔线程联合SGLang社区将于5月10日(周日)下午在北京举办技术Meetup,采用「线下活动 + 线上直播」双通道形式。
▼ 议题一:框架适配与架构演进
SGLang核心贡献者Xiaoyu Zhang(BBuf)与摩尔线程核心贡献者,将分享SGLang Roadmap、kernel优化、Vibe Coding应用、MUSA移植落地等。
▼ 议题二:算子编译与性能优化
Triton、TileLang项目技术大牛,揭秘算子工程,分享高性能算子生成、MUSA专项优化、MATE技术协同。
▼ 议题三:系统整合与生态共建
Mooncake等明星项目专家将探讨训推一体系统与开源社区协同,共建 AI 新生态。
诚挚邀请开发者朋友们
扫码报名线下参会,或预约线上直播,与技术大牛面对面,共探 AI 无限可能。






