오늘의 SynapWeave: SIA, AI Safety Requires Effective Controllability 🤖 자기 개선 AI와 통제 · VitaBench 2.0, IPIBench, ENPMR-Bench 🧠 에이전트 평가의 진화 · MAIGO, StepOPSD 🔄 다중 턴 에이전트의 (2026-05-28)
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
🤖 자기 개선 AI와 통제 가능성 — 프로덕션에서 충돌하는 두 요구
arXiv에 2026년 5월 28일 게재된 두 논문이 상반된 방향을 제시한다. SIA (Self Improving AI with Harness & Weight Updates)는 사람이 AI 개선의 병목(bottleneck)이라고 진단하며, 모델이 자신의 코드와 가중치를 수정하는 자기 개선 루프를 제안한다. Harness 계층이 개선 범위를 제한하고 Weight Update 계층이 실제 파라미터를 변경하는 구조다. 반면 'Position: AI Safety Requires Effective Controllability'는 정렬(alignment)만으로는 부족하며, 배포된 에이전트를 중단(stopping), 재정의(overriding), 수정(modifying)할 수 있는 통제 가능성(controllability)이 안전의 핵심 조건이라고 주장한다. 두 논문 모두 arXiv 프리프린트로, 동료 검토 전 상태다.
이 두 논문을 나란히 두고 읽어야 하는 이유는, 프로덕션에서 이 요구가 정면으로 충돌하기 때문이다. SIA가 제안하는 자기 개선 루프는 모델이 스스로 가중치를 업데이트하는 구조다. Harness가 '안전한 범위'를 정의한다고 하지만, 그 Harness 자체가 버그를 포함하거나 공격에 취약할 경우 통제 불능 상태로 빠질 수 있다. 실제로 2025년 상반기 AutoGPT와 BabyAGI 커뮤니티에서 '자기 수정 에이전트'가 무한 루프에 빠지거나 의도치 않은 API 호출을 반복한 사례가 여러 번 보고됐다. SIA의 Harness 계층이 이런 실패를 막을 수 있을지는 아직 검증되지 않았다.
Controllability 논문이 지적하는 핵심은, 정렬된 행동(aligned behavior)이 통제 가능성을 보장하지 않는다는 점이다. 모델이 항상 '옳은' 답을 내더라도, 관리자가 긴급히 시스템을 중단하거나 행동 규칙을 재정의할 수 있어야 한다는 것이다. 이는 SIA의 자기 개선 시나리오에서 특히 중요하다. 모델이 스스로 개선한 후에는 원래의 정렬 메커니즘이 더 이상 유효하지 않을 수 있기 때문이다.
도입을 고려하는 팀이라면 다음 세 가지를 먼저 확인해야 한다. 첫째, 자기 개선 루프에 '인간 인 루프(human-in-the-loop) 중단 스위치'가 설계에 포함되어 있는가. SIA의 Harness가 이 역할을 할 수는 있지만, 논문에서는 비상 중단 절차를 명시적으로 다루지 않는다. 둘째, 가중치 업데이트 후 정렬 검증을 어떤 주기로 수행할 것인가. 업데이트할 때마다 전체 정렬 평가를 돌리는 것은 비용이 크지만, 건너뛰면 위험하다. 셋째, 통제 가능성 요구사항을 SLA(Service Level Agreement)에 어떻게 반영할 것인가. '에이전트가 스스로 개선한 후에도 고객이 요청하면 5초 내에 중단 가능' 같은 조건을 계약에 넣을 수 있어야 한다.
두 논문 모두 아직 동료 검토 전이므로, 결론보다는 프레임워크 자체에 주목할 필요가 있다. SIA는 자기 개선의 '어떻게'를, Controllability 논문은 '누가 멈출 것인가'를 묻는다. 프로덕션에서는 이 두 질문에 동시에 답할 수 있어야 한다.
🧠 에이전트 평가의 진화 — 장기 상호작용과 사전 대응 능력
2026년 5월 28일 arXiv에 게재된 세 벤치마크 논문이 에이전트 평가의 새로운 차원을 제시한다. VitaBench 2.0은 장기 사용자 상호작용에서 개인화되고 사전 대응적인(proactive) 에이전트를 평가한다. IPIBench는 연속적인 시각 입력 스트림에서 MLLM(Multimodal Large Language Model)의 사전 대응적 추론 능력을 측정한다. ENPMR-Bench는 정서 지원 에이전트(emotional support agents)의 사전적 메모리 검색(proactive memory retrieval) 능력을 평가한다. 세 벤치마크 모두 기존의 반응형(reactive) QA 평가에서 벗어나, 에이전트가 사용자의 명시적 요청 없이도 맥락을 이해하고 먼저 행동해야 하는 시나리오를 다룬다.
이 세 벤치마크가 공통으로 겨냥하는 것은 '에이전트가 사용자가 말하지 않은 것을 얼마나 잘 처리하는가'다. 기존 벤치마크(MMLU, HumanEval, MT-Bench)는 모두 명시적 질문에 답하는 반응형 평가였다. 하지만 프로덕션에서 에이전트가 실제로 실패하는 지점은 사용자가 '도와줘'라고 말하지 않았을 때, 또는 여러 턴에 걸쳐 흩어진 힌트를 종합해야 할 때다.
VitaBench 2.0은 특히 주목할 만하다. 장기 상호작용에서 사용자의 선호도를 학습하고, 다음 행동을 예측해 먼저 제안하는 능력을 평가한다. 예를 들어 사용자가 매일 아침 특정 뉴스레터를 읽는 패턴을 학습하면, 에이전트가 사용자가 요청하기 전에 해당 뉴스레터를 준비하는 식이다. 실제로 2025년 말 Google의 Project Mariner와 OpenAI의 Operator 데모에서 이런 '사전 대응' 기능이 강조됐지만, 정량적 평가 기준은 없었다. VitaBench 2.0이 그 빈자리를 채우려는 시도다.
IPIBench는 시각적 스트림에서의 사전 대응을 평가한다. 예를 들어 보안 카메라 영상에서 이상 징후를 감지했을 때, 에이전트가 사용자에게 먼저 알리는 능력을 측정한다. 이는 물류 창고, 스마트 팩토리, 자율주행 등 실시간 비디오 분석이 필요한 도메인에서 직접적인 영향을 미친다.
ENPMR-Bench는 정서 지원이라는 특수 도메인을 다룬다. 사용자가 '괜찮아'라고 말했지만, 이전 대화에서 불안 신호를 보였다면 에이전트가 이를 기억하고 먼저 확인하는 능력을 평가한다. 이는 정신 건강 챗봇, 고객 서비스 에스컬레이션 시스템에서 중요한 요소다.
도입 관점에서 이 벤치마크들을 활용하는 방법은 간단하다. 자신의 도메인에 가장 가까운 벤치마크를 선택해, 도입하려는 에이전트를 평가해보는 것이다. 예를 들어 고객 서비스 에이전트를 구축 중이라면 ENPMR-Bench의 정서 인식 시나리오를, 스마트 홈 어시스턴트라면 VitaBench 2.0의 장기 선호도 학습 시나리오를 테스트하면 된다. 단, 이 벤치마크들은 아직 초기 버전이므로, 결과를 절대적 지표로 보기보다는 취약점을 발견하는 도구로 사용하는 것이 적절하다.
🔄 다중 턴 에이전트의 학습 효율 — 자기 오염과 신용 할당 문제
2026년 5월 28일 arXiv에 게재된 두 논문이 다중 턴(multi-turn) 에이전트의 학습 문제를 다룬다. MAIGO (Mitigating Lost-in-Conversation with History-Cleaned On-Policy Self-Distillation)는 대화 중 모델의 중간 응답이 이후 맥락에 노이즈로 작용하는 '자기 오염(self-contamination)' 현상을 발견하고, 이를 제거하는 자기 증류(self-distillation) 기법을 제안한다. StepOPSD (Step-Aware Online Preference Distillation for Agent Reinforcement Learning)는 다중 턴 에이전트의 희소 보상(sparse reward) 문제를 해결하기 위해, 단계별 선호도 증류(preference distillation)를 도입한다. 두 논문 모두 다중 턴 환경에서의 학습 효율을 개선하는 데 초점을 맞춘다.
이 두 논문은 같은 문제의 다른 면을 본다. MAIGO는 '이미 생성한 응답이 이후 추론을 망치는' 자기 오염 문제를, StepOPSD는 '전체 대화가 끝나야 보상을 주는' 희소 보상 문제를 해결하려 한다. 프로덕션에서 이 두 문제는 동시에 발생한다.
MAIGO의 자기 오염은 실제로 자주 목격되는 현상이다. 예를 들어 고객 지원 에이전트가 첫 턴에서 '죄송합니다만, 해당 정보는 확인이 어렵습니다'라고 응답한 후, 이후 턴에서 사용자가 같은 질문을 반복하면 에이전트가 이전의 '확인 불가' 응답을 근거로 삼아 더 이상 정보를 찾지 않는 경우다. MAIGO는 이런 중간 응답을 제거한 '깨끗한' 히스토리로 모델을 재학습시켜 이 문제를 완화한다.
StepOPSD는 보상이 너무 늦게 오는 문제를 해결한다. 다중 턴 에이전트에서 최종 목표 달성 여부만 보상으로 주면, 중간 단계의 좋은 결정과 나쁜 결정을 구분하기 어렵다. StepOPSD는 각 턴마다 선호도(preference)를 수집해 밀집 보상(dense reward)을 생성한다. 예를 들어 에이전트가 사용자의 질문을 명확히 이해했는지, 적절한 도구를 선택했는지 등을 각 단계에서 평가한다.
도입 시 고려할 점은 두 가지다. 첫째, MAIGO의 자기 오염 제거는 오프라인 학습 단계에서만 가능하다. 이미 배포된 에이전트의 실시간 응답을 수정하는 것은 아니다. 따라서 배포 전에 충분한 다중 턴 시뮬레이션 데이터를 확보해야 한다. 둘째, StepOPSD의 단계별 선호도 수집은 사람의 개입이 필요하다. 자동화된 보상 모델을 사용할 수도 있지만, 그 모델 자체가 편향될 위험이 있다. 실제 프로덕션에서는 두 기법을 결합해, MAIGO로 학습 데이터를 정제하고 StepOPSD로 보상을 밀집화하는 파이프라인을 구축하는 것이 효과적일 수 있다.
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
댓글
댓글 쓰기