FOUND "国内" IN LINUX DO Channel

@purrSWE-CI 测试模型长期维护代码库的能力 或许这就是Claude被人青睐的原因之一? 中发帖
国内发的一篇
本质上就是给模型跨越数个月的任务 而不只是对单个的静态任务
模型需要能够维护自己的代码 而不只是解决问题
论文的测试结果
[image]
很难受的是没有 5.4 和 Co
 
 
Back to Top