에이전트 벤치마크의 예측 타당성 — 리더보드 점수는 프로덕션 성능과 무관하다 | SynapWeave
오늘 논문 세 편은 모두 *에이전트 평가의 신뢰성*이라는 공통 변수를 가리킨다. 정적 리더보드가 프로덕션 성능을 예측하지 못하는 문제, 법률 도메인에서 환각이 집중되는 패턴, 그리고 공간 추론 에이전트가 실제로 작동하는 조건. 세 가지 모두 *벤치마크 점수만 보고 도입을 결정하면 안 되는 이유*를 보여준다. ▶ 한눈에 보기 정적 리더보드는 프로덕션 성능을 예측하지 못한다. 도입 전 벤치마크가 다루지 못한 차원을 직접 측정해야 한다. 법률 AI의 평균 환각률 52%는 오류의 집중 패턴을 숨긴다. 유형별 감사 없이 도입하면 특정 시나리오에서 치명적인 실패가 발생한다. 공간 추론 에이전트에서 도구 사용은 reasoning을 유발하지만 대체하지 않는다. 도구 선택의 trade-off와 상태 저장 여부가 실제 성능을 결정한다. 📊 에이전트 벤치마크의 예측 타당성 — 리더보드 점수는 프로덕션 성능과 무관하다 사실 요약 arXiv 2606.19704 논문 'Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents'는 MCP 기반 산업용 에이전트 벤치마크 하나를 14개의 병렬 구현 연구로 심층 분석했다. 논문은 단일 벤치마크가 배포 환경이 노출하는 차원 중 4-5개 이상을 다루지 못한다고 지적한다. 리더보드 점수는 정적이며, 실제 배포에서의 latency·동시성·에러 핸들링·비용 변동성 같은 차원을 반영하지 않는다. 연구는 벤치마크의 예측 타당성(predictive validity)이 부족하다는 점을 실증적으로 보여준다. 살펴볼 포인트 이 논문이 던지는 질문은 간단하다: '리더보드 1위 에이전트가 내 프로덕션에서도 1위일까?' 답은 '아니오'다. 이유는 세 가지다. 첫째, 벤치마크는 정적 태스크 집합이다. 실제 워크로드는 입력 분포가 시간에 따라 변하고(데이터 드리프트), 예외 케이스가 빈번하며, 동시 요청이 폭주한다. 리더보드는 이런...