全球首款真正意义上的通用
AI Agent
,它能够独立思考、规划并执行复杂任务,直接交付完整成果。官方宣称,Manus不仅仅是一个只会聊天的对话式AI工具,而是一个真正的自主智能体(
Agent
)。Manus定位于一位性能强大的通用型助手,对于用户不仅仅是提供想法,而是能将想法付诸实践,真正解决问题。
Manus的GAIA评分超越OpenAI的DeepResearch,成为GAIA评分第一。
GAIA
GAIA 基准,旨在评估 AI 助手解决实际问题的能力。
研究团队提出了一系列问题,这些问题对于人类来说在概念上很简单,但对于最先进的人工智能来说却具有挑战性。
- 共包含 466 个需要多步骤推理的复杂问题,分为 Lv.1、Lv.2、Lv.3 三个难度级别。
人类在 GAIA 测试中的平均正确率高达92%,GPT-4 在 GAIA 测试中的综合正确率仅为15%。
- 且在最高难度级别(Lv.3)的问题上表现更差,部分得分甚至为零。
直到有了推理模型 +Deep Research 后,才拿下当时的 SOTA。
OpenAI 的 规划的 AGI 路线:
Level1: 常规的 ChatBot 形态。
Level2: 对应目前的强推理模型。
Level3: 具备 Agent 能力,基于指令,可以 Take Action 的 AI 系统。
Manus 这个产品,就是来到了这个阶段。