LongCat Flash开源,主打一个快!
LongCat Flash开源,主打一个快!
月伴飞鱼这是美团开源的千亿参数大模型 LongCat Flash。
这款模型在仅激活少量参数、推理速度更快的情况下,性能直接看齐业界顶级水平。
并在指令遵循(IFEval)、智能体工具使用(τ2-Bench)等多项评测中表现优异,超越同类模型。
Hugging Face 地址:huggingface.co/meituan-longcat/LongCat-Flash-Chat
LongCat Flash虽然拥有高达 5600 亿的总参数量,但推理速度却能达到惊人的 100 Tokens/s(TPS)。
这意味着,模型输出内容时,不再是挤牙膏式地一段字一段字蹦,而是像闪电一样刷刷刷地给出结果。
根据官方数据,LongCat Flash 在 H800 上可以实现 100 Tokens/s 的生成速度。
输出成本低至 5 元/百万 Token,真正做到了又快又省。
零计算专家(Zero Computation Experts)
LongCat Flash引入了一种零计算专家机制,就像学霸做卷子,简单的送分题一扫而过,把时间都花在压轴的大题上。
通过这种算力按需分配机制,每个 Token 可根据上下文需求仅激活 18.6B~31.3B 的少量参数。
实现算力的高效利用,大大提升了效率。
更快的 MoE(Shortcut Connected MoE)
传统模型工作起来,经常是一步做完再做下一步,中间会有等待的空窗期,浪费时间。
LongCat-Flash 采用了 ScMoE 架构,彻底优化了内部工作流。
这好比一条更快的流水线,上一个工序的零件还没完全打包好,下一个工序就已经开始并行处理了,让计算和通信无缝衔接。
这样一来,无论是训练还是推理,整体效率都得到了巨大提升。














