用 16 万美元训练 Moxin-7B 挑战 LLaMA，挑战“唯大模型论”

30 5 月, 2025

在大模型竞逐不断升温、AI 技术迈入深水区的当下，谁能真正推动人工智能走向高效、普惠与可信？美国东北大学电气与计算机工程系教授、IEEE 高级会员王言治（Yanzhi Wang），以其在“能效智能”与“全流程可复现 AI 系统”方面的前瞻研究，正为行业提供新的解题路径。

王言治教授长期致力于实时与高能效的人工智能系统、边缘计算与生成式大模型等方向，研究成果覆盖深度学习、AI 架构优化、大模型系统工程等多个前沿领域，其成果已被包括谷歌、微软、MIT 等知名机构采纳或报道，学术影响广泛，产业联系紧密。

作为当下开源 AI 社区的重要推动者，王教授领导开发的 Moxin-7B 模型，不仅以 16 万美元低成本实现与 LLaMA、Qwen 等主流模型媲美的性能，更在“开源训练数据与代码”“轻量化部署”“强化学习自优化”等方向作出系统性创新。面对算力瓶颈、数据焦虑和“唯大模型论”的行业迷思，Moxin-7B 展现出“小模型+强化学习”的极致性价比路径，为边缘智能、具身智能和多模态应用开辟了更多可能。其团队对完全开源实践的承诺，包括共享训练数据和代码，也标志着人工智能研究社区在提升透明度和协作方面迈出了重要一步。

由 GOSIM 联合 CSDN 重磅打造的 Open AGI Forum 栏目，在 GOSIM AI Paris 2025 现场，很荣幸地再度邀请到了王言治教授，深入分享他过去一年最新研究进展、Moxin-7B 背后的创新、复现与扩展强化学习框架方面的工作，以及他对不断发展的人工智能生态系统的深刻洞察。

图｜Open AGI Forum 现场对谈实录（左：主持人唐小引，右：嘉宾王言治教授）

精彩观点抢先看:

Moxin-7B 是一款完全开源、从零开始训练的 7B 级大模型，其全部训练数据与代码均已开放，便于研究社区进行复现与验证。
未来 AI 芯片的发展可能将转向更大内存架构。若以 MoE 模型为代表的超大模型趋势延续，当前主流的高算力但小显存 GPU 可能将面临瓶颈。
小模型通过 Fine-Tuning 提升，往往需要从大模型提取数据进行蒸馏，但这需要手动标注或核对数据，操作复杂。因此，如果小模型能直接通过强化学习提升自身能力，其意义重大。
DeepSeek 和 Qwen 其实已经迈出了很大的一步。相比之下，国外的 Llama 系列尽管也宣称是“开源”，但在授权上存在一定限制。例如，对于一些大型企业用户来说，如果使用 Llama 或其衍生模型达到一定规模，是需要获得 Meta 的许可授权的。
Llama 目前仍是美国主导下少数几个具备开源属性的大模型之一。因此，即便 Llama 4 的性能已被 Qwen 或 DeepSeek 超越，在某些场景下，他们仍然会被“迫不得已”地采用。我们认为这为国内模型提供了重要的市场机遇。比如在具身智能等前沿应用领域。

Moxin-7B：全流程开源与强化学习在小模型中的突破应用

唐小引：过去一年您的研究团队取得了哪些新进展？

王言治：这一年我们主要聚焦于 Moxin-7B 模型的研发。与 Qwen、Llama 等未“开源”训练代码和数据的大模型不同，Moxin-7B 是一个从零开始训练的模型，全部训练数据和代码均已开源。这样做的好处在于，研究社区可以完整复现训练过程，使用起来也更加安全透明。此外，社区用户可以将模型应用于自身数据，进行量化和蒸馏等优化操作。因为训练数据可得，所以他们在迁移时的准确性也更高。

我们在对 Qwen 或 DeepSeek 等模型进行蒸馏与量化时，也受益于这套基础体系，模型准确率可提升 0.5% 到 0.8%。这也是我们从头开始训练模型的意义。

目前，无论是基础模型还是 Chat 模型版本，Moxin-7B 的性能已达到甚至在部分指标上超越 Llama 3 和 Qwen 2.5 等主流模型的 7B 版本。值得注意的是， Qwen 3 的 7B 模型在指标上提升并不显著，他们的主要精力放在了 MoE 模型上。尽管 7B 模型的能力有一定局限性，但我们的模型在某些指标上仍具有优势，特别是与 Llama 系列相比，表现更为突出。

除了模型指标，我们还在强化学习（Reinforcement Learning）方面进行了一些尝试，复现了 DeepSeek 的一套强化学习框架和算法。

DeepSeek 的核心创新在于，他们通过一种名为 GRPO 的方法，使得在最终结果可验证（例如数学题或编程问题）的情况下，模型的中间推理步骤也能通过强化学习得到提升。这是目前非常先进的方法。相比之下，其他模型的思维链，其中间结果通常是手动标注的。根据 DeepSeek 论文的说法，这种强化学习方法主要对大模型有效，对小模型而言，直接进行 Fine-Tuning 可能效果更好。然而，我们发现情况并非如此。小模型通过 Fine-Tuning 提升，往往需要从大模型提取数据进行蒸馏，但这需要手动标注或核对数据，操作复杂。因此，如果小模型能直接通过强化学习提升自身能力，其意义重大。这意味着在很多场景下，无需手动标注大量数据，模型即可自我提升，例如在数学能力方面。

我们将这套框架做了出来，并且在数学、编程等能力上都看到了显著提升。这种方法在许多缺乏结构化数据的场景中尤其有用，例如特定的编程任务（如 Rust 语言编程）或具身智能。在这些领域，虽然难以获取大量训练数据，但最终的结果（代码是否运行成功、机器人任务是否完成）是可验证的。因此，只要最终结果能被验证，中间的执行或决策过程就可以通过强化学习进行自我优化，无需手动提供中间步骤数据或亲自操作。将这套强化学习方法在小模型上复现和实现非常有意义，因为 DeepSeek 最大的模型过于庞大，绝大多数人难以负担 Fine-Tune 它所需的几十甚至上百块高端 GPU。

相较于需要极其庞大算力的大模型，我们的优势在于，通过这套方法，任何一个小型端侧模型都能够在这些能力上持续提升。更重要的是，即使模型本身不拥有相关数据，它也能通过这种方式自己生成这些数据。这具有非常重大的意义。

我们在本次 GOSIM 会议上展示了一个实时的端侧翻译应用。该应用基本上能在每秒钟内完成一次决策（或处理一步），这个速度在目前来说是相当快的。通过对模型进行量化和 Fine-Tuning，实现了显著的性能提升。与上次在北京举办的 GOSIM 会议相比，过去需要依赖英伟达平台运行，而现在仅用一台笔记本电脑就能实现，并且速度比上次快很多。未来我们的模型可以在手机、具身智能设备或智能眼镜等更小的端侧设备上运行。不过，他们也提到这可能需要他们模型特有的一些方法来支持。唐小引：您团队的训练成本非常低，而且还复现了 DeepSeek 在强化学习方面的工作。能否详细介绍一下，这项工作带来了哪些具体成果？大家也非常关心，如何实现您前面提到的高性能、低成本和全流程透明？

王言治：我们坚持“全透明”这一原则，作为后来者，我们有很多前人的成果可以借鉴，模型架构是在现有研究的基础上进行改进和优化的，减少了部分模型微调或结构创新所需的额外工作量。因此，训练成本 16 万美元基本是实际的计算成本，并不包括其他软性成本。我们不追求“刻意低价”，而是希望为社区提供一个可以复现的、透明的成本参考。比如，如果你按照此方法复现一个类似 LLaMA 3 的 7B 模型，训练成本也大致在这个区间，没有特别的技术门槛。

此外，我们在训练过程中没有使用 NVIDIA 最贵的 GPU，而是选择了更具性价比的解决方案，同时基于 Colossal-AI 等高性能训练框架进行了适配和优化，这也是我们能够控制成本的一个关键因素。

从技术突破角度看，我们主要验证了一个核心点：强化学习确实可以显著提升模型性能。尤其是我们采用的 GRPO算法，在实验中取得了较为理想的效果。

唐小引：关于模型架构，为什么选择基于 Mistral 7B 而不是 LLaMA 系列？

王言治：主要是出于开源许可的考虑。LLaMA 的模型虽然效果不错，但其使用条款较为严格，限制了模型的修改和再发布。相比之下，Mistral 的架构设计是开放的，虽然没有开源训练代码和数据集，但明确允许在结构层面进行复用。因此，我们在 Mistral 7B 架构的基础上进行了调整。原始 Mistral 在结构上采用了极致的 Grouped Query Attention，该设计在某些场景下会导致精度下降。因此对其进行了适度的结构优化，以在保持性能的同时提升准确率。

唐小引：强化学习部分，您提到采用了 GRPO 算法，并且使用的是 7B 模型。这个算法在业内还比较新，能否介绍一下其中的技术细节？

王言治：我们在 RL 的优化过程中做了几个关键改进。其中之一是 tokenizer 的优化。很多国产模型在 tokenizer 设计上偏向中文，而像 Mistral 则是以英文为主，导致中文场景下性能不佳。我们采用了多语言融合的策略，在 tokenizer 层面做了类似 MoE 的机制，使得中英文数据在分词时都能被准确处理，显著提升了跨语言能力。

在 GRPO 方面，我们最大的创新是构建了一个通用化的强化学习框架。以往的强化学习优化，大多集中在特定任务上，比如 DeepSeek 强化的是模型的数学能力。但我们构建的框架是可扩展、可迁移的，可以应用在翻译、代码生成、具身智能，甚至新材料发现等任务中。

“伪开源”还是技术壁垒？揭示大模型开源的真实难度

唐小引：最初看到 Moxin-7B 开源模型发布时，我有一个非常强烈的感受：目前大模型领域在开源方面一直存在一些痛点，大家对“真正的开源”——包括训练代码、数据集、模型权重等的百分之百开放——有非常强烈的需求和期待。虽然像 DeepSeek 这样的团队声称实现了开源，但从严格意义上来说，它们其实还没有做到完全开源。比如在关键训练机制或核心模型架构上，依然有所保留。大模型真正的开源有多难？

王言治：确实如此。但我们也要承认，DeepSeek 和 Qwen 其实已经迈出了很大的一步。相比之下，国外的 Llama 系列尽管也宣称是“开源”，但在授权上存在一定限制。例如，对于一些大型企业用户来说，如果使用 Llama 或其衍生模型达到一定规模，是需要获得 Meta 的许可授权的。

所以，从开源的开放程度来看，DeepSeek 实际上已经是非常靠前的了。但需要指出的是，DeepSeek 的一个核心技术点——大规模 MoE 训练——目前来看在行业中处于明显领先地位，短时间内其他团队很难复现。这也是它没有完全开源核心训练代码的原因之一，某种程度上可以理解。

我们团队目前只复现了 DeepSeek 部分技术，主要是其强化学习相关的部分，而没有尝试复现其 MoE 架构。原因在于，面向的是终端设备如手机平台，MoE 的内存消耗确实过大，不太现实。因此，我们更关注轻量化与实用性之间的平衡。

唐小引：请您详细展开讲讲这块技术的挑战，比如 Llama 在 MoE 方面的“失败”，Qwen 在这方面的进展，以及 DeepSeek 为何这么难以被追上，具体难点体现在哪些地方？

王言治：我们是在 MoXin 项目刚启动的时候，注意到了 DeepSeek 发布的 V2 版本。当时他们采用了一个规模在 200-300B 参数量级的 MoE 架构，其中仅激活 25B 参数。那一阶段，DeepSeek 的表现和其他主流模型相比还没有明显优势。

但转折点出现在它升级到 610B 到 671B 总参数规模，并采用了激活 35B 参数的 MoE 架构之后。这个变化让它在模型能力上实现了质的飞跃。尽管其实际计算量相比于 Llama 或 Qwen 的 70B 模型只有约一半，但在准确率、数学推理能力等方面却实现了显著提升。这说明他们所采用的 MoE 路线非常具有潜力。

更具体地说，DeepSeek 这类大规模 MoE 设计的训练难度极高，包括模型并行、负载均衡、梯度稳定性等方面都有大量挑战。能够成功落地并大幅提升性能，说明 DeepSeek 在工程能力和算法调优方面积累了深厚经验。

这也让国外团队高度紧张起来，Llama 团队在感受到压力后也迅速转向 MoE 架构的研发。但由于缺乏类似 DeepSeek 的训练经验和工程积累，推出的 MoE 版本整体表现并不理想，业界反馈也不算积极。

相较之下，Qwen 的进展要好一些，但目前来看在大规模 MoE 架构上的表现仍不及 DeepSeek。不过在中小规模模型上， Qwen 表现非常强劲，是目前开源社区中最有代表性的模型之一。

总体而言，目前整个开源模型生态中，DeepSeek 和 Qwen 代表了两个最具竞争力的技术路线。尤其是在大规模模型架构设计和工程落地能力上，DeepSeek 的领先幅度已经非常明显。

唐小引：的确，我最近看到一些报道：DeepSeek 的进展让 Meta 的 Llama 团队感到压力倍增。关于大模型训练，您是否有一些可以分享的业内观察或信息？

王言治：我并不掌握非常详细的内部消息，美国许多机构在选择基础模型时，受到政治合规性等因素的限制，最终往往还是会选用 Llama。例如像亚马逊 AWS 这样的大型云服务商，尽管也意识到 DeepSeek 或 Qwen 的性能可能更强，但出于合规和稳妥考虑，仍然倾向于默认支持 Llama 4。

这在一定程度上反映了一个现实，即 Llama 目前仍是美国主导下少数几个具备开源属性的大模型之一。因此，即便 Llama 4 的性能已被 Qwen 或 DeepSeek 超越，在某些场景下，他们仍然会被“迫不得已”地采用。

我们认为这为国内模型提供了重要的市场机遇。比如在具身智能等前沿应用领域，目前仍有大量系统是基于 Llama，甚至是 Llama 2 构建的。如果将这些基础模型替换为 Qwen ，能显著提升整体系统的准确率和表现，对后续的研究产出和论文发表都有非常积极的推动作用。

总体而言，未来不论是在应用开发还是科研工作中，以 DeepSeek 或 Qwen 为底座，将在性能和创新空间上相较于 Llama 系列具备明显优势。这种趋势的发展速度其实超出了很多人的预期。一年前大家普遍还认为 Qwen 与 Llama 在评测指标上表现相当，但在真实应用环境中，我们发现 Qwen 的效果远超 Llama，实用性和鲁棒性都有显著提升。

大模型训练不是“堆数据”，而是“炼数据”

唐小引：从行业趋势来看，数据质量和数据策略对大模型效果的影响越来越显著。我们注意到，不论是在模型训练，还是在具身智能等应用领域，数据瓶颈都是一个核心挑战。与此同时，低质量数据也会带来一系列问题，合成数据的使用也成为近期讨论的热点。那么在您看来，关于数据的问题有哪些关键的观察？另外，Moxin-7B 项目在数据策略方面具体是如何设计和实施的？

王言治：在 MoXin 项目中，我们对数据的处理采取了高度谨慎、质量优先的策略。主要使用了以下几类数据：

Slim Pajama（基于 Red Pajama V2）：
Red Pajama V2 原始数据中约有 20GB，但我们发现在其中大约 4% 是无效链接（即 404 错误），这些内容在训练中几乎没有价值。因此我们进行了清洗，剔除无效数据。最终可用于训练的有效数据不到 1GB。
DCRM 数据集：
这是 Apple 提供的高质量语料，实验效果非常不错。我们同样对这部分数据进行了筛选，确保其在模型训练中的有效性。
TextCoder 数据集：
主要用于代码生成相关的训练。业内普遍认为，高质量的编程数据不仅对代码生成有益，还可以显著提升模型的逻辑推理能力。

整体而言，MoXin 使用的训练数据总量不到 2GB，但得益于精细筛选，训练出的模型质量仍然令人满意。相比之下，即使将数据扩展到 15GB，如果质量低、例如大量为无效页面或低价值内容，那么对模型提升作用仍然有限。

此外，我们在训练过程中对 Wikipedia 等高质量通用数据源也给予了更高的权重，以增强模型的基础知识能力。

在 MoXin 的训练过程中，我们基本上没有大规模使用合成数据，除了在强化学习阶段会用到部分合成样本。但即便如此，我们也会对这些数据进行验证，例如在数学题数据中，确保生成的答案是可以被数学逻辑所验证的。如果合成数据能够满足可验证性，那么它在某种程度上也可以被视为“高可信度”的数据。

我个人的看法是，对于 7B 参数级别的模型，目前已有的数据体量远未“喂饱”它，模型甚至都无法完全记住现有数据的全部内容，因此没必要盲目扩展合成数据。只有在更大规模的模型上，合成数据可能才具有必要性。

当然，这也存在一个悖论：要构造高质量的合成数据，需要使用比目标模型更强的生成模型。而强模型的训练本身又依赖于大量高质量数据，这就形成了一个瓶颈。

唐小引：以往大家都相信大力出奇迹，如今训练成本大幅降低，对大模型的训练带来了哪些的变化？

王言治：我现在有一个并不明确的判断：像英伟达 RTX 4090 这类显存仅有 24GB、但计算能力极强的 GPU，在未来模型的发展趋势下可能并不适用。如果 DeepSeek 代表的是未来的发展方向，那么真正有潜力的设备应该是计算能力相对适中，但具备更大显存和更强内存带宽的系统。这意味着像 NVLink 这种高速互联技术，在未来可能不会像现在这样具备吸引力。

我认为 AIPC 可能会成为一个重要的趋势，甚至会出现在云测环境中。虽然我现在试用的一些 AIPC 设备表现还有明显不足，但我们已经成功在部分 AIPC 上部署了 DeepSeek。

理想中的 AIPC，在我看来，应该至少能够运行 DeepSeek 级别，或者像 Qwen 最大规模模型的本地部署。同时，它应当支持运行各类 agent，如对话系统、翻译系统，乃至具身智能控制等。此外，还应承载一个完整的 AI 应用生态，比如可以在本地运行狼人杀这样的 AI 游戏，或者加载各类 AI 工具。

这个生态应该类似 App Store，但区别在于，它是本地部署，不依赖云端调用，不需要按 API 次数付费。最多是一种一次性购买，而不是像当前 OpenAI 的订阅和 API 调用那样持续付费。

唐小引：现在很多开发者关心模型在代码场景下的表现，尤其是在后端开发方面。您觉得目前主流模型在这方面有什么不足？您的方案如何改善？

王言治：目前主流模型，例如 Claude，其在前端任务中表现非常出色，比如写 UI 代码、Web 开发等。但在后端开发、系统内核（Kernel）编程等复杂任务中仍有显著不足。例如，将 C 代码迁移至 Rust、使用 Rust 编写渲染引擎等任务，对语言规范、内存安全和性能要求更高，这些是当前通用模型难以胜任的。

我们的方法通过强化学习在这些任务中不断优化模型行为，使其更符合 Rust 等系统语言的语义规范。强化学习不仅关注“做得对不对”（是否符合语法和规范），还评估“做得好不好”（是否具备可维护性、效率、性能等指标）。这些目标被融合进 GRPO 的 reward 函数设计中，从而实现模型质量的逐步提升。

而像 Claude 等通用模型，其本质上仍是基于大规模预训练语言模型，虽然可通过 prompt 调整行为，但无法持续性地通过 RL 来针对具体场景迭代优化。

图｜王言治教授在 GOSIM AI Paris 2025 专访现场

大小模型协同趋势：从边缘部署到多任务混合架构的未来路径

唐小引：从去年到今年，我一直关注学术界关于大模型和小模型协作的讨论。起初，大家普遍认为大模型足够强大，可以完全覆盖各种应用场景，基本忽视了小模型的作用。然而，近半年来，我听到越来越多来自学术界的声音，开始重新重视大小模型的协同。这方面的讨论也越来越多。王老师结合您从学术界到工业界的经验，给大家具体讲讲这背后的情况和现状。

王言治：大家之前普遍认为小模型能力不足，所以必须依赖大模型来解决所有问题。但实际上，在端侧运行某些任务比在云端更有优势，尤其是在能力相当的情况下。比如说，大家都会做一些AIPC或者车载芯片等硬件，很多场景下并不希望把所有数据都放到云端，主要考虑到隐私、安全和稳定性等问题。因此，端侧需要能运行小模型并发挥一定效果，从成本角度来说也是合理的。

不过小模型无法解决所有问题，大小模型协作是最理想的方案：端侧用小模型处理能完成的任务，无法解决的再交由云端大模型处理。

过去之所以难以实现这样的协作，是因为小模型能力和准确率太低，难以胜任通用应用。但随着 DeepSeek 等技术的出现，通过知识蒸馏产生的小模型，准确率有了显著提升。比如1.5亿参数的小模型已经能很好地完成报表生成等任务，表现相当出色。这些模型虽然不具备通用能力，但在专用领域，比如翻译、写作辅助、报表处理等应用中，表现已经非常不错。数学等复杂领域可能略逊一筹，但整体效果令人满意。

而小模型性能提升的关键，在于采用了知识蒸馏技术，尤其是具备“Chain of Thought”推理能力的模型。这种思考能力本身并非小模型先天具备，而是通过大模型蒸馏而来。开源大模型和开源小模型的结合，使得各个团队和企业都能基于开源技术实现这样的能力。这种开源生态将带来极大推动作用，让更多人能够参与进来，共同推动大小模型协同的发展。

这种大小模型协同的趋势非常明显，也很可能成为未来的发展方向。当然，这个预测不一定完全准确，技术发展充满不确定性，但我个人认为这种模式很有潜力。

唐小引：能否谈谈您在具身智能方向的最新进展与下一步计划？

王言治：我们近期在具身智能方面取得了比较好的进展。团队使用自研模型与训练方法，结合对 OpenVLA（斯坦福提出的具身智能模型结构）的优化，显著提升了运行速度和准确率——在保持准确率的同时，我们的模型运行速度提升了 30 倍以上。

这意味着即使在资源受限的小型平台，甚至是手机上，也可以实现具身智能的实时控制。以前这类系统必须背着一台服务器，如今我们已经可以实现完全脱离服务器的快速响应。

目前我们正探索让具身智能执行如打乒乓球、开门等此前难以完成的复杂任务。这项工作的两大核心优势是：极低延迟的反应速度，以及无需大量演示样本的自学习能力。例如打乒乓球，即使初期表现不完美，它也能快速学会并做出有效回击。这种能力与早期强化学习在雅达利游戏中的应用有异曲同工之处——虽然任务简单，但却是 AlphaGo 诞生之前的重要技术前奏。

唐小引：所以您认为，未来 AI 模型的发展方向将更趋向于端侧落地，甚至形成云端协同的混合应用架构？

王言治：是的，最终会走向云-端结合的模式。端侧的角色可能更多是任务分发和本地响应处理。一些任务我认为必须在端侧完成，比如翻译。因为使用场景中经常处于网络不佳的状态，比如在旅游途中或大型会议现场等，这时候依赖云端并不现实。

当然，也不是所有任务都必须在端侧完成，很多依然需要云端的算力支撑。更合理的方式是根据任务类型实现协同部署，扬长避短。

唐小引：非常感谢王老师在本期 GOSIM Open AGI Forum 栏目中的精彩分享。

从 LLaMA 到 Moxin，走出“唯大模型论”

在对人工智能未来趋势的深入探讨中，王言治教授展示了其深厚的学术积淀与对产业前沿的精准洞察。他不仅通过 Moxin-7B 项目验证了小模型在低成本、高性能和端侧部署方面的巨大潜力，还通过强化学习等技术赋予模型“自进化”能力，打破了传统 AI 对超大模型的依赖。

正如王教授所强调的，未来人工智能的发展不应拘泥于模型规模的无止境扩张，而应聚焦于效率、透明度与可复现性。他倡导的“云-端协同、大小模型协同”的架构路径，或将成为未来 AI 技术走向普惠与落地的关键指引。

在这个逐渐走出“唯大模型论”的时代，王言治教授无疑正为开源 AI 生态注入一股深具前瞻性的学术力量与技术信念。