
龙虾太火,所有人都想一试。但真到了上手环节就会迎来第一道“拦路虎”—— 急急急,究竟哪个模型最适合 OpenClaw 啊??
知道你急,龙虾之父亲自赶来支招了:可以关注这个因吹斯汀的榜单。
榜单名为 PinchBench,专为龙虾而生,从成功率、速度、价格等维度评估全球大模型对 OpenClaw 的适配程度。(划重点,还是实时更新那种)
这个榜单其实今年 2 月底就出现了,但现在却更火了 ——
这里面不止有龙虾之父推荐的功劳,更重要的原因是咱中国模型的表现确实出色。(老外一看,嗯??)
前排国产模型含量好高啊
熟悉龙虾的朋友都知道,这选模型可是一件大事。毕竟龙虾这玩意儿一吃 token 耗钱,二又不能太慢影响用户体验。
换言之,人人都在价格和速度之间艰难走钢丝。
而 PinchBench 要做的,就是直接告诉你答案 —— 它按照成功率、速度、价格这三个基本维度对全球模型进行排名,所以哪个模型更擅长什么基本都一目了然。
截至本文发稿前,榜单具体情况如下 —— 整体而言,中国模型在成功率和速度方面都有不俗表现,价格方面则稍逊。
比成功率,除了第一名谷歌 Gemini 3 Flash,第二、第三名都出自国内。
第一名(Gemini 3 Flash):成功率 95.1%
第二名(MiniMax M2.1):成功率 93.6%
第三名(Kimi K2.5):成功率 93.4%
而且注意没,MiniMax 用的还不是它家最新模型 MiniMax M2.5。
(注:MiniMax M2.5 于春节期间上线,官方主打“让无限运行复杂 Agent 在经济上可行”。)
比速度,国产模型 MiniMax M2.5 更是一举超越 Gemini、Llama 等模型,登上榜首。
当时发布时,MiniMax M2.5 就在 SWE-Bench Verified 测试中,完成任务的速度较上一代 M2.1 提升了 37%,端到端运行时间缩短至 22.8 分钟,与 Claude Opus 4.6 持平。
而 Claude Opus 4.6 的最新排名是 30(M2.1 是第 22)。
不过在价格方面,国产模型和 OpenAI、谷歌模型相比则缺乏优势。
排第一的 GPT-5-nano(专为轻量级、高性价比场景设计),输入价格低至 0.05 美元 / 百万 tokens,输出价格低至 0.40 美元 / 百万 tokens。
而国产模型中最便宜的 MiniMax M2.1,输入价格为 2.1 元 / 百万 tokens(约 0.3 美元 / 百万 tokens),输出价格为 8.4 元 / 百万 tokens(约 1.2 美元 / 百万 tokens)。
平均下来,后者的价格几乎是前者的 3 倍。
综合来看,如果要在成功率和价格之间取得最佳平衡,下面这张图可以作为参考。
左上角的方框已经圈选出了还不错的模型 —— 一共 8 个,其中有 4 个还都是中国模型。
Anyway,在这份专为龙虾而生的 Benchmark 中,国产模型的含量确实很高,而且在某些单项上表现出色。
那么问题来了,这榜单靠谱吗?背后的筛选机制又是什么?
来看 PinchBench 的介绍。
谁是 PinchBench?
简单来说,PinchBench 并不是某家大厂推出的标准 Benchmark,而是来自一支做 Agent 基础设施的创业团队。
团队名为 Kilo AI,由 GitLab 前联合创始人兼 CEO Sid Sijbrandij 投资并参与创立,曾推出爆火“氛围编程”工具 Kilo Code。
年初龙虾爆火后,他们又顺势推出了基于 OpenClaw 构建的全托管智能体平台 KiloClaw。
而随着 KiloClaw 一起发布的,就有 PinchBench 这个智能体框架评测工具。
PinchBench 主要被用来测试不同大模型在真实工作流中的执行能力,和传统大模型 Benchmark(比如知识问答、数学推理)不同,其定位更接近“Agent 能力测试”—— 不只看模型会不会回答问题,而是看模型能不能完成一整件事。
目前它大约包含 23 个真实任务的测试,包括但不限于:
查询并整理资料
写邮件或生成报告
调用 API 完成操作
……
在评分机制上,PinchBench 采用的是自动化检查 +LLM 评审的组合方式:
一部分任务有明确的自动检查脚本,例如是否生成正确文件、是否完成指定操作等;另一部分任务则会由 LLM Judge 来判断结果质量。
最终统计的核心指标就是我们上面提到的 Success Rate(任务完成率)、Speed(完成速度)、Cost(推理成本)。
由于评测方式偏向真实任务流程,值得注意的是,在 PinchBench 的排行榜上,你会看到一个有意思的现象 ——
更大的模型并非总是制胜之道。
换言之,那些偏 Agent 优化或推理效率更高的模型,排名反而比传统主流大模型更靠前。
这一点也是 PinchBench 最近在圈子里被频繁讨论的原因之一。
BTW,PinchBench 目前还是完全开源的,用户也可以在平台上自行运行或添加新任务。
如果以后不知道怎么选模型,不妨自己动手一试。
PinchBench 开源地址:https://github.com/pinchbench/skill

