昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE

心灵探险家 06-03 1004

默认

摘要： 其实在上次华为夏季全场景发布会后华为还带来了一款新机型系列的星耀版当时果子没提嘛是以为华为把此前已经发布过的换了名字又搬出来重新再介绍一遍因为系列不也补了个发布会嘛而且官微上也没见...

其实在上次华为 “ 夏季全场景发布会 ” 后，华为还带来了一款新机型。nova 系列的 12 Ultra 星耀版！当时果子没提嘛...是以为华为把此前已经发布过的 nova 12 Ultra 换了名字又搬出来重新再介绍一遍。因为 Pura 70 系列不也补了个发布会嘛。而且官微上也没见更多的信...

6月3日消息:2024年6月3日，昆仑万维宣布开源了一个性能强劲的2千亿稀疏大模型，名为 Skywork-MoE。这个模型是在之前开源的 Skywork-13B 模型的基础上扩展而来的，是首个完整应用并落地 MoE Upcycling 技术的开源千亿级 MoE 大模型。同时，这也是全球首个支持在单台4090服务器上进行推理的开源千亿级 MoE 大模型。

Skywork-MoE 的模型权重、技术报告完全开源，可以*商用，无需申请。模型的总参数量为146B，激活参数量为22B，共有16个 Expert，每次激活其中的2个 Expert。与其他主流模型相比，在相同的激活参数量下，Skywork-MoE 的性能接近70B 的 Dense 模型，推理成本下降了近3倍。

为了解决 MoE 模型训练困难、泛化性能差等问题，Skywork-MoE 采用了两种训练优化算法:Gating Logits 归一化操作和自适应的 Aux Loss。此外，为了高效进行大规模分布式训练，Skywork-MoE 提出了两个并行优化设计:Expert Data Parallel 和非均匀切分流水并行。

在推理方面，Skywork-MoE 是目前能够在8台4090服务器上进行推理的最大开源 MoE 模型。通过首创的非均匀 Tensor Parallel 并行推理方式，在 FP8量化下，Skywork-MoE 可以实现2200tokens/s 的吞吐。

•模型权重*:

￮https://huggingface.co/Skywork/Skywork-MoE-base

￮https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

•模型开源仓库:https://github.com/SkyworkAI/Skywork-MoE

•模型技术报告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.*

•模型推理代码:（支持8x4090服务器上8bit 量化加载推理） https://github.com/SkyworkAI/vllm