无论是M1还是Deepseek等其他模型,谁能更好地满足市场需求,解决实际应用中的问题,谁就能在这场激烈的竞争中占据优势地位。

近日,Minimax发布了全新推理模型M1,迅速在大模型领域引发广泛关注。这款模型不仅在参数规模上颇为可观,还在长文本处理能力和成本控制等方面展现出独特优势,甚至号称某些性能超越了行业内颇受瞩目的Deepseek。在大模型竞争日益激烈的当下,M1的出现无疑为市场增添了新的变量。但它究竟实力几何,又能否真的撼动Deepseek等模型的地位?让我们深入剖析。
M1的亮点
1. 超长文本处理能力突破
M1支持最高100万token上下文输入 ,这一数据达到DeepSeek R1的8倍,在闭源模型中与谷歌Gemini 2.5 Pro一致,同时还支持最长8万Token的推理输出。在实际应用场景中,长文本处理能力至关重要,如处理长篇学术文献、法律条文、复杂的技术文档等。以学术研究为例,科研人员在进行文献综述时,常常需要处理大量的学术论文,M1的超长上下文输入能力,使其能够一次性读取和理解更丰富的内容,从而为用户提供更全面、准确的信息整合和分析结果。
M1之所以能够实现长文本处理能力突破,主要得益于Lightning Attention(闪电注意力)混合构架。传统Transformer架构在处理长文本时,其注意力机制主导下的计算量增长为平方级,文本序列越长,计算量越发陡增,这对性能和成本均为挑战。而Lightning Attention将全连接注意力拆成两大部分,一个是针对局部上下文整合、采用传统注意力机制的“块内”attention,一个是针对全局摘要、采用线性注意力的“块间”attention。这一方案可以减少大量累积性的计算量,并提高处理速度,使得M1在长文本处理上具备显著优势。
2. 成本优势显著
在成本方面,M1展现出了极高的性价比。根据Minimax的技术报告,在进行8万Token的深度推理时,M1所需的算力为DeepSeek R1的约30%;生成10万token时,推理算力约为DeepSeek R1的25%。整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本为53.5万美元。
Minimax提出的CISPO(Clipped IS-weight Policy Optimization)算法在其中起到了关键作用。这是一种高效率、高稳定性的强化学习策略,相比于PPO策略实行token级别的裁剪更新,它通过裁剪重要性采样权重提升强化学习效率,类似“序列级别”裁剪,使其更快实现收敛,并达成更少的训练时间和资源消耗 。在AIME(AI-powered Moral Evaluator)等测试中,CISPO的收敛性均快于DAPO算法和GRPO算法,从侧面证明了其在优化成本上的有效性。对于企业和开发者而言,成本的降低意味着在相同的预算下可以进行更多的模型训练和应用开发,提高了投入产出比,这无疑是M1吸引市场的一大卖点。
3. 基准测试表现不俗
在多个业内主流的评测基准中,M1也有着可圈可点的表现。在体现长文本处理能力的MRCR(4-needle)上,它大幅超越了一众开闭源模型,在AIME 2024、LiveCodeBench、SWE-bench Verified等测试中,虽略逊色于DeepSeek-R1-0528,但在TAU-bench上有所赶超 。这表明M1在特定领域和任务上具备较强的竞争力,并非徒有虚名。尤其是在智能体工具使用(Agentic Tool Use)维度上,从评测基准TAU-Bench (airline)中的表现来看,目前M1已经是市面上在该方面能力最强的模型,为其在相关应用场景的拓展奠定了良好基础。
尚存在的不足
1. 模型泛化能力待验证
尽管M1在已知的评测基准和特定场景下表现出色,但模型的泛化能力仍有待进一步验证。大模型需要面对现实世界中千变万化的任务和数据,在一些未经过充分训练的领域或场景中,M1是否能够保持稳定且良好的性能表现,还存在疑问。例如在一些新兴的行业应用,如量子计算相关的科普与研究辅助,或是一些小众但复杂的艺术创作领域,M1能否准确理解和处理相关信息,目前还缺乏足够的实践检验。若模型泛化能力不足,其应用范围将会受到较大限制,难以真正实现跨领域的广泛应用。
2. 生成内容的多样性与创新性不足
部分用户反馈,M1在生成内容时,存在严谨有余而创新和发散性不足的问题。在需要高度创意的任务中,如创意写作、广告文案创作等,M1生成的内容可能显得较为保守,缺乏独特的视角和新颖的思路。以广告文案创作为例,优秀的广告文案需要能够吸引消费者的注意力,激发他们的兴趣,而M1生成的文案可能难以达到这样的效果,无法在众多竞争对手中脱颖而出。在如今强调个性化和创新性的市场环境下,这一缺点可能会影响M1在内容创作相关领域的应用和推广。
3. 对硬件环境的依赖
虽然M1在算力成本上相较于DeepSeek R1等模型有优势,但它的运行和推理仍然对硬件环境有一定要求。对于一些硬件资源有限的小型企业或个人开发者来说,部署和使用M1可能存在一定困难。例如,一些创业初期的AI公司,可能无法承担购买大量高性能GPU的费用,这就限制了他们对M1模型的应用和二次开发。而且,当硬件环境无法满足M1的最佳运行条件时,其性能表现可能会大打折扣,无法充分发挥出模型的优势。
4. 市场认可度与生态建设挑战
目前,大模型市场已经存在众多参与者,Deepseek、通义千问等模型在市场上已经积累了一定的用户基础和市场认可度,拥有相对成熟的开发者社区和应用生态。M1作为后来者,要在市场中分得一杯羹,面临着不小的挑战。在开发者社区建设方面,尽管M1发布即开源,但在Github上,M1发布8小时后获得440星,截至目前得到了620星,与国内更受开发者认可的通义千问和DeepSeek相比,还有较大的提升空间。缺乏广泛的开发者支持,意味着基于M1的二次开发应用可能相对较少,难以形成完善的应用生态,进而影响其市场推广和长期发展。
未来展望
Minimax M1模型的发布,无疑为大模型市场注入了新的活力,其在长文本处理和成本控制等方面的优势,使其具备了在市场中竞争的实力。然而,正如任何新兴技术一样,M1也面临着诸多挑战和问题,需要在后续的发展中不断优化和完善。对于Minimax来说,接下来如何提升模型的泛化能力、增强生成内容的多样性与创新性,以及进一步降低对硬件环境的依赖,扩大市场认可度和完善生态建设,将是决定M1未来发展走向的关键因素。
从市场竞争格局来看,M1的出现加剧了大模型领域的竞争,这对于整个行业的发展而言是有益的。竞争将促使各大模型研发团队不断创新和优化,推动技术的进步,最终让用户和企业受益。无论是M1还是Deepseek等其他模型,谁能更好地满足市场需求,解决实际应用中的问题,谁就能在这场激烈的竞争中占据优势地位。在未来,我们期待看到M1以及整个大模型行业能够带来更多的惊喜和突破,为人工智能的发展做出更大贡献。