RSS
5 days ago
FOUND "
国内
" IN
LINUX DO Channel
@purr
在
SWE-CI 测试模型长期维护代码库的能力 或许这就是Claude被人青睐的原因之一?
中发帖
国内发的一篇
本质上就是给模型跨越数个月的任务 而不只是对单个的静态任务
模型需要能够维护自己的代码 而不只是解决问题
论文的测试结果
[image]
很难受的是没有 5.4 和 Co
Home
Powered by
BroadcastChannel
&
Sepia