ClickEye 사이트의 슬로건 중 하나는 “같은 AI를 써도, 결과는 다릅니다”다. 듣기 좋은 카피로 보이지만, 실제 산업 데이터가 그 말을 정확하게 뒷받침한다. 같은 모델 가중치, 같은 데이터셋, 같은 문제 — 모델 주변의 실행 환경을 어떻게 설계하느냐에 따라 정답률이 15-25%p씩 달라진다. 이 글은 그 “실행 환경 설계”가 어떻게 2024-2025년 AI 산업의 핵심 자산이 되었는지를 1차 출처로 정리한다. ClickEye가 마케팅에서 말하는 ‘Execution by Experience’는 추상이 아니다 — 그것이 가리키는 실체가 무엇인지 본다.
1. 같은 AI, 같은 문제, 다른 점수
2023년 6월 HuggingFace의 평가 엔지니어들이 표 하나를 공개했다. 같은 LLaMA-65B 모델, 같은 MMLU 데이터셋(미국 표준 시험 문제 모음)을 세 가지 평가 도구가 측정했더니 결과가 갈렸다 — 0.637, 0.636, 그리고 0.488.[1] 15%p 격차다. 같은 모델, 같은 문제. 차이는 오로지 채점 방식이었다. 한 도구는 객관식 보기 A/B/C/D의 확률만 보고, 다른 도구는 모델이 실제로 생성한 첫 단어를, 또 다른 도구는 정답 문장 전체의 가능성을 합산했다. 같은 시험을 채점관 셋이 다르게 채점한 셈이다.
HuggingFace의 결론은 한 줄로 요약된다.
“평가 결과는 그 구현 방식과 매우 밀접하게 연결되어 있다 — 프롬프트나 토큰 처리 같은 미세한 디테일까지. ‘MMLU 결과’라는 단순한 표기는 다른 라이브러리에서 측정한 숫자와 비교할 정보를 거의 주지 않는다.”[1]
이 발견이 의미하는 바는 분명하다. 모델 선택은 시작점일 뿐, 진짜 차이는 모델 주변의 환경 설계에서 만들어진다.업계는 이 환경을 harness(말의 마구처럼 모델을 둘러싸는 평가·실행 도구 전체)라고 부른다.
2. 모델은 같은데 49%가 74%가 된다
2025년 11월 Anthropic이 Advanced Tool Use라는 엔지니어링 글에서 한 발 더 나아간 사례를 공개했다.[2] 같은 Claude Opus 4 모델의 가중치를 한 줄도 바꾸지 않고, 도구 정의 방식만 최적화하는 기능(Tool Search)을 켰을 때 도구 사용 정확도가 49%에서 74%로 상승했다. 최신 Opus 4.5에서는 79.5%에서 88.1%로 올랐다. 같은 모델, 같은 문제, 환경만 바꿨다.
한 가지 흥미로운 수치가 더 있다. Anthropic이 내부에서 측정한 평균 도구 정의 토큰이 134,000개였고, Tool Search로 이를 85% 감소시켰다. 모델에게 보여주는 도구 명세만 잘 정리해도 모델의 행동이 바뀐다는 뜻이다. 모델 학습은 없었다 — 오로지 환경 설계의 결과다.
3. 2024-2025년, 글로벌 AI 회사들이 정립한 doctrine
이 사실이 산업 표준이 된 흐름은 명확하다. Anthropic이 2024년 12월부터 2025년에 걸쳐 발표한 네 편의 글이 그 doctrine의 뼈대를 만들었다.
① “Building Effective Agents” (2024년 12월) — 산업의 기준점
이 글은 이후 AI 에이전트 개발의 표준 reference가 됐다.[3] 핵심 구분은 한 문장이다 — ‘워크플로우는 사람이 미리 정한 코드 경로 위에서 LLM과 도구를 오케스트레이션하는 시스템이고, 에이전트는 LLM이 스스로 자기 과정과 도구 사용을 결정하는 시스템이다.’ 그리고 세 가지 원칙이 제시된다 — 단순함 우선, 투명함, 에이전트-컴퓨터 인터페이스 (ACI) 설계. 도구 문서화와 테스트가 모델 자체와 나란히 first-class engineering 영역으로 격상되는 게 여기서다. 같은 글이 한 줄로 디스시플린을 못 박는다 — “단순 프롬프트로 시작하고, 종합적 평가로 최적화하고, 단순한 해결책이 부족할 때만 다단계 에이전트 시스템을 추가하라.”
② “Effective Harnesses for Long-Running Agents” (2025년) — 장기 작업의 scaffolding
2025년 시리즈는 doctrine을 구체적 패턴으로 풀어낸다.[4] 첫 세션이 환경 설정 스크립트, 진행 상황 로그 파일, 초기 git commit을 생성하는 ‘Initializer 에이전트’로 시작한다. 이후 모든 세션은 점진적 진행과 구조화된 업데이트 기록을 반복한다. Anthropic의 정면 진술:
“가장 강력한 코딩 모델인 Opus 4.5조차 Claude Agent SDK 위에서 여러 컨텍스트 윈도우를 도는 루프로 실행돼도, 만약 고수준 프롬프트만 던져진다면 운영 가능한 웹 앱을 만들어내지 못한다... 컴팩션만으로는 부족하다.”[4]
가장 강한 모델조차 장기 작업에는 환경 설계가 필수라는 진술 — 이걸 모델 회사가 직접 인정한 셈이다.
③ “Writing Tools for Agents” (2025년 9월) — 도구는 계약이다
도구 설계 자체를 엔지니어링 분과로 다룬다.[5] 핵심 정의: “도구는 결정론적 시스템과 비결정론적 에이전트 사이의 계약을 반영하는 새로운 종류의 소프트웨어다.” 권장 패턴도 구체적이다 — list_users, list_events, create_event를 별도 도구로 두지 말고 schedule_event라는 하나의 통합 도구로 만들라. “특정 고임팩트 워크플로우를 타깃으로 한 신중한 도구 몇 개”가 원칙이다. Claude Code가 기본 적용하는 도구 응답 상한 25,000 토큰도 여기서 공개된다.
④ Agent Skills — 정보를 점진적으로 노출하기 (2025년)
Agent Skills 아키텍처는 3단계 계층으로 정보를 노출한다 — 시작 시 모든 스킬의 metadata만 로드, 관련성이 확인되면 본문 로드, 추가 파일은 필요할 때만 탐색.[6] 그리고 한 가지 핵심 결정: 스킬 폴더에 실행 가능한 스크립트를 포함시킨 이유를 공식 문서가 직접 답한다 — “많은 애플리케이션은 코드만이 제공할 수 있는 결정론적 신뢰성을 필요로 한다.”
4. ‘Harness as Product’의 명백한 증거 — Claude Agent SDK
2025년 9월 29일, Sonnet 4.5 출시와 함께 Anthropic이 Claude Agent SDK를 공개했다.[7] 출시 페이지의 한 문장이 사건의 본질을 드러낸다.
“Claude Agent SDK는 Claude Code를 작동시키는 바로 그 인프라이며, 코딩뿐 아니라 매우 광범위한 작업에서 인상적인 효과를 보입니다.”[7]
엔지니어링 글이 핵심을 4단계 루프로 요약한다 — 컨텍스트 수집 → 행동 → 검증 → 반복. 설계 철학: “에이전트에게 컴퓨터를 주어, 사람처럼 일하게 한다.”[8] Claude Code SDK가 Claude Agent SDK로 개명된 점이 메시지의 전부다 — Anthropic이 자사 production 에이전트의 환경 인프라를 그대로 외부 개발자에게 제품으로 출시했다. Harness 자체가 제품이 된 시점이다.
5. 4년 만에 1.96%에서 82%로
이 doctrine이 만들어낸 결과는 코딩 에이전트 평가에서 가장 명확하게 보인다.
2023년 SWE-bench(실제 GitHub 이슈를 해결하는 코딩 능력 평가) 논문이 발표됐을 때, 당시 최고 성능 모델이던 Claude 2의 해결률은 1.96%였다.[9] 2024년 8월 OpenAI와 Princeton이 사람이 직접 검증한 500개 문제로 구성된 SWE-bench Verified를 공개했고,[10] 2025년 10월 Anthropic의 Claude Sonnet 4.5가 그 검증판에서 77.2%(10회 평균), high-compute 모드로 82.0%를 기록했다.[7] 4개월 전 같은 시리즈의 Sonnet 4는 72.7%였다. 두 해가 안 되는 사이 같은 평가에서 1.96%가 82%로 올라왔다.
같은 출시 페이지가 또 한 줄을 직접 마케팅한다 — “우리는 이 모델이 복잡한 다단계 작업에서 30시간 이상 집중을 유지하는 것을 관측했다.”[7] 컴퓨터 사용 능력을 측정하는 OSWorld 평가에서도 Sonnet 4.5는 61.4% — 4개월 전 같은 시리즈의 42.2%에서 올라온 수치다.
모델 가중치도 분명히 좋아졌다. 그러나 같은 모델 가중치에서 환경 설계만으로 49%를 74%로 옮길 수 있다는 사실을 고려하면, 이 80점 가까운 도약의 큰 몫은 환경 — 즉 harness — 에 있다.
6. 영국 정부가 자국 표준으로 채택했다
이 흐름이 단순한 모델 회사의 마케팅이 아니라는 것은 정부 차원의 시그널에서 확인된다. 영국 정부 산하 AI Security Institute(AISI)와 Meridian Labs가 공동 개발한 오픈소스 평가 프레임워크 Inspect(MIT 라이선스, 2024년 5월 공개)는 200개 이상의 사전 구축된 평가, ReAct·Deep Agent 같은 에이전트 패턴, Claude Code·Codex CLI·Gemini CLI 같은 외부 에이전트 통합을 제공한다.[11] 2024년 10월 31일 영국 AISI가 공식 발표한 Autonomous Systems Evaluation Standard는 한 줄로 못 박는다 — “모든 평가는 Inspect로 빌드되어야 한다.”[12] 국가 안전성 기관이 평가 프레임워크를 자국 표준으로 의무화하고, 그 도구를 그대로 오픈소스로 풀었다는 사실이 이 doctrine 의 산업 위치를 정확하게 드러낸다.
7. ClickEye가 이 doctrine을 한국·동남아 시장에 옮기는 방식
ClickEye가 마케팅에서 말하는 핵심 메시지 셋 — “같은 AI, 다른 결과”, “AI 초안 + 전문가 검증”, “검증된 Workflow 재사용” — 은 이 doctrine을 그대로 현지 시장에 가져온 결과다.
- 같은 AI, 다른 결과 — 환경 설계가 결과를 만든다: 도구 정의를 통합하고(scheduler 하나로), 도구 응답 토큰 상한을 정하고, 진행 상황 로그와 초기화 스크립트로 장기 작업의 scaffolding을 깐다. Anthropic이 글로 정리한 패턴을 프로젝트 첫날부터 적용한다.
- AI 초안 + 전문가 검증 — Human-in-the-loop는 줄이는 게 아니라 정확히 어디 두는지 설계한다: 모든 코드 변경은 코드 전문 AI(Codex)의 검토를 거치고, 도메인별로 가장 잘하는 AI(Anthropic의 Claude Opus가 아키텍처와 DB)에 위임 되며, 최종 게이트는 경험 있는 인간 리더가 잡는다.
- 검증된 Workflow 재사용 — Harness 자체가 자산이다: 약속(팀이 따르는 18개 원칙), 역할 정의(누가 언제 무엇을 검토), 자동화 흐름이 하나의 체계로 묶여 다음 프로젝트의 첫 commit으로 그대로 옮겨간다.
이 doctrine이 실제 프로젝트에서 어떻게 작동하는지에 대해서는, ClickEye가 진행 중인 내부 프로젝트 Hawkeye의 60일을 다룬 “AI에게 매니저 자리를 맡긴다는 것” 글에서 세 가지 구체적 사건으로 풀었다.
8. 마치며
2024년 12월 한 AI 회사가 글 한 편으로 doctrine을 선언했고, 2025년 9월 그 doctrine을 SDK라는 제품으로 출하했으며, 같은 시기 영국 정부가 그것을 자국 평가 표준으로 채택했다. 코딩 에이전트 평가에서는 2년이 안 되는 사이 같은 종류의 평가에서 해결률이 1.96%에서 82%로 올라왔다. AI는 더 이상 데모가 아니다. 환경 설계가 곧 모델이고, 도구이고, 평가가 된 시대다.
ClickEye는 이 doctrine을 한국·동남아 시장의 실행 파트너로 가져온다. 단순한 AI 도입이 아니라, 모델 주변의 환경 까지 함께 설계되어 운영 가능한 시스템이 필요하다면 언제든 문의해주시기 바란다.
References
- Fourrier, C. 외. (2023.06). What's going on with the Open LLM Leaderboard? HuggingFace. huggingface.co/blog/open-llm-leaderboard-mmlu
- Anthropic (2025.11). Advanced Tool Use. Tool Search Opus 4 49→74%, Opus 4.5 79.5→88.1%, 도구 정의 토큰 134K → 85% 감소. anthropic.com/engineering/advanced-tool-use
- Anthropic (2024.12). Building Effective Agents. 워크플로우와 에이전트의 구분 + Simplicity·Transparency·ACI 원칙. anthropic.com/research/building-effective-agents
- Anthropic (2025). Effective Harnesses for Long-Running Agents. anthropic.com/engineering/effective-harnesses-for-long-running-agents
- Anthropic (2025.09.11). Writing Tools for Agents. “도구는 결정론적 시스템과 비결정론적 에이전트 사이의 계약” + 25K 토큰 기본 상한. anthropic.com/engineering/writing-tools-for-agents
- Anthropic (2025). Equipping Agents for the Real World with Agent Skills. 3단계 점진적 노출. anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills
- Anthropic (2025.09.29). Introducing Claude Sonnet 4.5. SWE-bench Verified 77.2% / high-compute 82.0%, OSWorld 61.4%, “30+ hours” 자율 코딩, Claude Agent SDK 출시. anthropic.com/news/claude-sonnet-4-5
- Anthropic (2025). Building Agents with the Claude Agent SDK. gather context → take action → verify work → repeat. anthropic.com/engineering/building-agents-with-the-claude-agent-sdk
- Jimenez, C. E. 외. (2023). SWE-bench: Can Language Models Resolve Real-World GitHub Issues? arXiv:2310.06770. Claude 2 출시 시점 해결률 1.96%. arxiv.org/abs/2310.06770
- OpenAI & Princeton (2024.08.13). Introducing SWE-bench Verified. 500개 사람 검증 문제 + 93명 계약 개발자. openai.com/index/introducing-swe-bench-verified
- UK AI Security Institute & Meridian Labs. Inspect AI (MIT, 2024.05–). 영국 정부 평가 프레임워크. inspect.aisi.org.uk
- UK AISI (2024.10.31). Autonomous Systems Evaluation Standard. “모든 평가는 Inspect로 빌드되어야 한다.” ukgovernmentbeis.github.io/as-evaluation-standard