SWE-bench가 더 이상 최신 AI 코딩 능력을 측정할 수 없다
OpenAI가 SWE-bench Verified 벤치마크가 더 이상 최신 AI 모델의 코딩 능력을 제대로 측정할 수 없다고 발표했습니다. 이는 현재의 AI 코딩 성능이 기존 평가 지표를 초과했다는 의미이며, 더욱 도전적인 새로운 벤치마크 개발의 필요성을 제시합니다. AI 코딩 능력이 예상을 훨씬 넘어 발전했으며, 개발자들 사이에서 AI 성능의 한계를 재평가해야 한다는 논의가 활발해지고 있습니다.