LongCat Flash开源，主打一个快！

月伴飞鱼2025-11-032025-11-03

这是美团开源的千亿参数大模型 LongCat Flash。

这款模型在仅激活少量参数、推理速度更快的情况下，性能直接看齐业界顶级水平。

并在指令遵循（IFEval）、智能体工具使用（τ2-Bench）等多项评测中表现优异，超越同类模型。

Hugging Face 地址：huggingface.co/meituan-longcat/LongCat-Flash-Chat

GitHub 地址：github.com/meituan-longcat/LongCat-Flash-Chat

免费体验：https://longcat.chat/

LongCat Flash虽然拥有高达 5600 亿的总参数量，但推理速度却能达到惊人的 100 Tokens/s（TPS）。

这意味着，模型输出内容时，不再是挤牙膏式地一段字一段字蹦，而是像闪电一样刷刷刷地给出结果。

根据官方数据，LongCat Flash 在 H800 上可以实现 100 Tokens/s 的生成速度。

输出成本低至 5 元/百万 Token，真正做到了又快又省。

零计算专家（Zero Computation Experts）

LongCat Flash引入了一种零计算专家机制，就像学霸做卷子，简单的送分题一扫而过，把时间都花在压轴的大题上。

通过这种算力按需分配机制，每个 Token 可根据上下文需求仅激活 18.6B~31.3B 的少量参数。

实现算力的高效利用，大大提升了效率。

更快的 MoE（Shortcut Connected MoE）

传统模型工作起来，经常是一步做完再做下一步，中间会有等待的空窗期，浪费时间。

LongCat-Flash 采用了 ScMoE 架构，彻底优化了内部工作流。

这好比一条更快的流水线，上一个工序的零件还没完全打包好，下一个工序就已经开始并行处理了，让计算和通信无缝衔接。

这样一来，无论是训练还是推理，整体效率都得到了巨大提升。