
数字人命卡兹克
这个春节,快高亢乐的在老vibe coding了近6天。
我作念了个还蛮兴趣的东西,即是个18个大维度、近100个小维度,共970谈题的原创大模子评测集。
作念这个东西的思法其实额外陋劣,即是我但愿任何个新模子出来,就能用这套评测集平直过全自动过遍,再配我我方的实测,大致就能在3个小时里,就对新模子的智力相比明晰了,以便我好快的对模子进行评测,同期也能逃避些刷分怪。
东谈主啊,即是不知者畏,思的很陋劣,然而没思到作念起来,有这样的禁绝,4天险些用光了我御三大模子档Coding plan的额度,也果真踩了数的坑。
比如Skill迭代,运行我作念了出题和审查skill之后,我发现,模子出的照旧坨屎,因为缺了太多的教导和拘谨要求。是以没主意廊坊塑料挤出机,只可各个顶模子相互出题再相互审查,隔热条设备然后再把教导迭代回skills,就这样迭代了2天,这个skills才算踏实可用。
文安县建仓机械厂张开剩余65就比如高下文措置,这1000谈题的信息量过于,莫得个Agent能平直生成出来,别提好多原创素材,我以致写了3本15万字的演义看成评测集的素材之。像Claude Code,次生成个小类的10谈题,就照旧是佳高下文的限了。
不外这些坑归坑,然而也不测的帮我找到了各个维度里当今体感强的模子。
毕竟出题模子的智力上限,险些也影响出题的质地和翌日评测的质地,毕竟出题的拉了,那翌日评测拉。
是以,也给大共享下,不保证对,仅仅我我方的体感:
1. 软件工程与代码生成:GPT-5.3 codex
2. 代码走漏、理与质地:GPT-5.3 codex廊坊塑料挤出机
3. 调试、测试与爱戴:GPT-5.3 codex
4. 数据工程与后端作事:Claude Opus 4.6
5. 前端与居品工程:Claude Opus 4.6
6. Agent器具调用:Claude Opus 4.6
7. Web与桌面自动化(静态) :Claude Opus 4.6
8. 商讨与常识使命Agent(静态):GPT-5.2 Pro廊坊塑料挤出机
9. 数学与表情理:Gemini 3.1 Pro
10. 逻辑与谋划:Gemini 3.1 Pro
11. 常识广度与事实核验:Gemini DeepThink
12. 阅读走漏与信息抽取:GPT-5.2 Thinking
13. 长高下文顾虑与多轮致:GPT-5.2 Thinking
14. 辅导罢职与对皆:Claude Opus 4.6
15. 多模态走漏与视觉理:GPT-5.2 Thinking
16. 情商与合营相似:GPT-4.5
17. 创作抒发与审好意思:Claude Opus 4.6
以上,但愿能帮大省俭点期间。
哦对了,再特等提句,在搜索上要是你思搜对于AI的新的信息,比如OpanClaw的新玩法之类的。
坚信我廊坊塑料挤出机,用Grok 4.2,有奇。
发布于:北京市相关词条:玻璃棉毡 塑料挤出机 预应力钢绞线 铁皮保温 万能胶生产厂家
