用 16 万美元训练 Moxin-7B 挑战 LLaMA,挑战“唯大模型论” | Open AGI Forum

在大模型竞逐不断升温、AI 技术迈入深水区的当下,谁能真正推动人工智能走向高效、普惠与可信?美国东北大学电气与计算机工程系教授、IEEE 高级会员 王言治(Yanzhi Wang),以其在“能效智能”与“全流程可复现 AI 系统”方面的前瞻研究,正为行业提供新的解题路径。 王言治教授长期致力于实时与高能效的人工智能系统、边缘计算与生成式大模型等方向,研究成果覆盖深度学习、AI 架构优化、大模型系统工程等多个前沿领域,其成果已被包括谷歌、微软、MIT 等知名机构采纳或报道,学术影响广泛,产业联系紧密。 作为当下开源 AI 社区的重要推动者,王教授领导开发的 Moxin-7B 模型,不仅以 16 万美元低成本实现与 LLaMA、Qwen 等主流模型媲美的性能,更在“开源训练数据与代码”“轻量化部署”“强化学习自优化”等方向作出系统性创新。面对算力瓶颈、数据焦虑和“唯大模型论”的行业迷思,Moxin-7B 展现出“小模型+强化学习”的极致性价比路径,为边缘智能、具身智能和多模态应用开辟了更多可能。其团队对完全开源实践的承诺,包括共享训练数据和代码,也标志着人工智能研究社区在提升透明度和协作方面迈出了重要一步。 由 GOSIM 联合 CSDN 重磅打造的 Open AGI Forum 栏目,在 GOSIM AI Paris 2025 现场,很荣幸地再度邀请到了王言治教授,深入分享他过去一年最新研究进展、Moxin-7B 背后的创新、复现与扩展强化学习框架方面的工作,以及他对不断发展的人工智能生态系统的深刻洞察。 图|Open AGI Forum 现场对谈实录(左:主持人唐小引,右:嘉宾王言治教授) 精彩观点抢先看: Moxin-7B:全流程开源与强化学习在小模型中的突破应用  唐小引:过去一年您的研究团队取得了哪些新进展? 王言治:这一年我们主要聚焦于 Moxin-7B 模型的研发。与 Qwen、Llama 等未“开源”训练代码和数据的大模型不同,Moxin-7B 是一个从零开始训练的模型,全部训练数据和代码均已开源。这样做的好处在于,研究社区可以完整复现训练过程,使用起来也更加安全透明。此外,社区用户可以将模型应用于自身数据,进行量化和蒸馏等优化操作。因为训练数据可得,所以他们在迁移时的准确性也更高。 我们在对 Qwen 或 DeepSeek 等模型进行蒸馏与量化时,也受益于这套基础体系,模型准确率可提升 0.5% 到 0.8%。这也是我们从头开始训练模型的意义。 […]