LongCat Flash开源,主打一个快!

这是美团开源的千亿参数大模型 LongCat Flash。

这款模型在仅激活少量参数、推理速度更快的情况下,性能直接看齐业界顶级水平。

并在指令遵循(IFEval)、智能体工具使用(τ2-Bench)等多项评测中表现优异,超越同类模型。

Hugging Face 地址:huggingface.co/meituan-longcat/LongCat-Flash-Chat

GitHub 地址:github.com/meituan-longcat/LongCat-Flash-Chat

免费体验:https://longcat.chat/

LongCat Flash虽然拥有高达 5600 亿的总参数量,但推理速度却能达到惊人的 100 Tokens/s(TPS)。

这意味着,模型输出内容时,不再是挤牙膏式地一段字一段字蹦,而是像闪电一样刷刷刷地给出结果。

根据官方数据,LongCat Flash 在 H800 上可以实现 100 Tokens/s 的生成速度。

输出成本低至 5 元/百万 Token,真正做到了又快又省。

零计算专家(Zero Computation Experts)

LongCat Flash引入了一种零计算专家机制,就像学霸做卷子,简单的送分题一扫而过,把时间都花在压轴的大题上。

通过这种算力按需分配机制,每个 Token 可根据上下文需求仅激活 18.6B~31.3B 的少量参数。

实现算力的高效利用,大大提升了效率。

更快的 MoE(Shortcut Connected MoE)

传统模型工作起来,经常是一步做完再做下一步,中间会有等待的空窗期,浪费时间。

LongCat-Flash 采用了 ScMoE 架构,彻底优化了内部工作流。

这好比一条更快的流水线,上一个工序的零件还没完全打包好,下一个工序就已经开始并行处理了,让计算和通信无缝衔接。

这样一来,无论是训练还是推理,整体效率都得到了巨大提升。