Salah satu tagline di situs ClickEye berbunyi “AI yang sama, hasil yang berbeda.” Kedengarannya seperti copy pemasaran. Data industri sebenarnya membenarkannya secara tepat. Dengan bobot model yang identik, dataset yang identik, dan pertanyaan yang identik, cara Anda merancang lingkungan eksekusi di sekitar model dapat menggeser akurasi sebesar 15 hingga 25 poin persentase. Tulisan ini menelusuri — hanya dengan sumber primer — bagaimana “desain lingkungan” itu menjadi aset inti industri AI di 2024-2025. Tagline ‘Execution by Experience’ ClickEye bukanlah abstraksi. Inilah apa yang sebenarnya ditunjuknya.
1. AI yang sama, pertanyaan yang sama, skor yang berbeda
Pada Juni 2023 para insinyur evaluasi HuggingFace mempublikasikan sebuah tabel. Model LLaMA-65B yang sama, dataset MMLU yang sama (kumpulan soal ujian standar AS), dinilai oleh tiga pustaka evaluasi berbeda — 0,637, 0,636, dan 0,488.[1] Selisih 15 poin. Model sama, pertanyaan sama. Satu-satunya perbedaan adalah cara jawaban dinilai. Satu pustaka hanya membandingkan probabilitas huruf pilihan A/B/C/D. Yang lain menggunakan kata pertama yang sebenarnya dihasilkan model. Yang ketiga menjumlahkan kemungkinan teks jawaban penuh. Tiga penilai berbeda, tiga skor berbeda.
Kesimpulan HuggingFace dalam satu kalimat:
“Evaluasi sangat terikat dengan implementasinya — hingga detail kecil seperti prompt dan tokenisasi. Sekadar penyebutan ‘hasil MMLU’ memberi Anda sedikit atau tidak ada informasi tentang bagaimana Anda dapat membandingkan angka ini dengan yang lain.”[1]
Implikasinya jelas. Pemilihan model hanyalah titik awal; perbedaan sesungguhnya dibuat oleh desain lingkungan di sekitar model. Industri menyebut lingkungan ini sebagai harness — alat evaluasi dan eksekusi yang membungkus model.
2. Bobot sama — 49% menjadi 74%
Pada November 2025 Anthropic mempertajam poin ini dalam tulisan engineering berjudul Advanced Tool Use.[2] Tanpa menyentuh satu bobot pun di Claude Opus 4, sekadar mengaktifkan fitur yang mengoptimalkan bagaimana definisi tool disajikan (Tool Search) menaikkan akurasi penggunaan tool dari 49% menjadi 74%. Untuk Opus 4.5 yang lebih baru, naik dari 79,5% ke 88,1%. Model sama, tugas sama. Hanya lingkungan yang berubah.
Satu angka mencolok lagi dari tulisan yang sama: Anthropic mengukur definisi tool internal rata-rata 134.000 token, dan Tool Search memangkasnya sebesar 85%. Hanya merapikan bagaimana tool dideskripsikan ke model mengubah perilaku model. Tidak ada pelatihan. Hanya desain lingkungan.
3. Doktrin yang dibentuk industri AI di 2024-2025
Bagaimana temuan ini menjadi praktik standar terdokumentasi dengan baik. Empat tulisan Anthropic dari Desember 2024 hingga 2025 membentuk tulang punggung doktrin tersebut.
① “Building Effective Agents” (Desember 2024) — referensi industri
Tulisan ini menjadi teks rujukan industri.[3] Pembedaan arsitektural dalam satu kalimat: workflow mengorkestrasi LLM dan tool sepanjang jalur kode yang telah ditentukan; agen membiarkan LLM secara dinamis mengarahkan proses dan penggunaan tool-nya sendiri. Lalu tiga prinsip: kesederhanaan, transparansi, dan desain antarmuka agen-komputer (ACI). Dokumentasi dan pengujian tool diangkat menjadi perhatian engineering kelas satu, setara dengan modelnya sendiri. Disiplinnya disampaikan dalam satu baris: “Mulai dengan prompt sederhana, optimalkan dengan evaluasi komprehensif, dan tambahkan sistem agentik multi-langkah hanya saat solusi yang lebih sederhana tidak cukup.”
② “Effective Harnesses for Long-Running Agents” (2025) — scaffolding untuk horizon panjang
Seri 2025 mengubah doktrin menjadi pola konkret.[4] Sesi pertama membuat skrip setup lingkungan, file log progres, dan commit git awal melalui ‘agen Initializer.’ Setiap sesi berikutnya membuat kemajuan inkremental dan menulis pembaruan terstruktur. Anthropic menyatakannya langsung:
“Bahkan model coding frontier seperti Opus 4.5 yang berjalan di atas Claude Agent SDK dalam loop di beberapa context window akan gagal membangun aplikasi web kualitas produksi jika ia hanya diberi prompt tingkat tinggi... compaction saja tidak cukup.”[4]
Bahkan model frontier terkuat membutuhkan scaffolding lingkungan untuk pekerjaan jangka panjang — diakui oleh vendor model itu sendiri.
③ “Writing Tools for Agents” (September 2025) — tool adalah kontrak
Desain tool diperlakukan sebagai disiplin engineering.[5] Definisi kunci: “Tool adalah jenis perangkat lunak baru yang merefleksikan kontrak antara sistem deterministik dan agen non-deterministik.” Pola yang direkomendasikan konkret: jangan kirim tool terpisah list_users, list_events, dan create_event — kirim satu schedule_event. “Beberapa tool yang dipikirkan dengan matang menargetkan workflow berdampak tinggi yang spesifik.” Batas atas respons tool default Claude Code juga dipublikasikan secara eksplisit: 25.000 token.
④ Agent Skills — progressive disclosure (2025)
Agent Skills menggunakan tiga tingkat eksposur informasi — saat startup hanya metadata setiap skill yang dimuat; saat relevan, body penuh dimuat; file yang lebih dalam dinavigasi sesuai kebutuhan.[6] Satu pilihan desain dijustifikasi langsung: “Many applications require the deterministic reliability that only code can provide.”
4. Harness sebagai produk — Claude Agent SDK
Pada 29 September 2025, bersamaan dengan Sonnet 4.5, Anthropic merilis Claude Agent SDK.[7] Satu kalimat di halaman peluncuran mengungkap apa rilis ini sebenarnya:
“Claude Agent SDK adalah infrastruktur yang sama yang menjalankan Claude Code, tetapi ia menunjukkan manfaat mengesankan untuk berbagai tugas yang sangat luas, bukan hanya coding.”[7]
Tulisan engineering memadatkan intinya dalam loop empat langkah: gather context → take action → verify work → repeat. Filosofi desain: “Berikan komputer kepada agen Anda, biarkan mereka bekerja seperti manusia.”[8] Penggantian nama dari Claude Code SDK menjadi Claude Agent SDK adalah pesannya sendiri — Anthropic mengirimkan infrastruktur lingkungan yang menjalankan agen produksinya sendiri sebagai produk untuk developer eksternal. Harness telah menjadi produk.
5. Dari 1,96% ke 82% dalam kurang dari dua tahun
Output dari doktrin ini paling terlihat dalam evaluasi coding-agent.
Ketika paper SWE-bench (benchmark yang meminta language model menyelesaikan issue GitHub nyata) dipublikasikan pada 2023, model terbaik — Claude 2 — menyelesaikan 1,96% issue.[9] Pada Agustus 2024 OpenAI dan Princeton merilis SWE-bench Verified, subset 500 instance yang divalidasi manusia.[10] Pada Oktober 2025 Claude Sonnet 4.5 Anthropic mencetak 77,2% pada set terverifikasi tersebut (rata-rata 10 percobaan), dan 82,0% dalam mode high-compute.[7] Empat bulan sebelumnya, Sonnet 4 seri yang sama berada pada 72,7%. Dalam kurang dari dua tahun jenis evaluasi yang sama bergerak dari 1,96% menjadi 82%.
Halaman peluncuran juga memasarkan langsung: “Kami mengamati ia mempertahankan fokus selama lebih dari 30 jam pada tugas multi-langkah yang kompleks.”[7] Pada OSWorld, benchmark yang mengukur penggunaan komputer nyata, Sonnet 4.5 mencapai 61,4% — naik dari 42,2% Sonnet 4 empat bulan sebelumnya.
Bobot model jelas membaik. Tetapi mengingat desain lingkungan saja memindahkan 49% menjadi 74% pada bobot identik, mengatribusikan lompatan ~80 poin itu hanya pada bobot tidak mungkin. Sebagian besar berasal dari lingkungan — harness.
6. Pemerintah Inggris mengadopsinya sebagai standar nasional
Bahwa ini lebih dari sekadar pemasaran vendor model dikonfirmasi pada tingkat pemerintah. Inspect adalah framework evaluasi open-source (MIT, dirilis Mei 2024) yang dikembangkan bersama oleh AI Security Institute (AISI) pemerintah Inggris dan Meridian Labs. Ia hadir dengan 200+ evaluasi siap pakai, pola ReAct dan Deep Agent, dan integrasi dengan agen eksternal seperti Claude Code, Codex CLI, dan Gemini CLI.[11] Pada 31 Oktober 2024, Autonomous Systems Evaluation Standard resmi UK AISI menyatakannya dalam satu baris: “Semua evaluasi harus dibangun menggunakan Inspect.”[12] Sebuah lembaga keamanan nasional mewajibkan framework evaluasi sebagai standarnya sendiri dan merilis tool yang sama persis sebagai open-source. Itu menempatkan doktrin ini dengan tepat.
7. Bagaimana ClickEye membawa doktrin ini ke Korea dan Asia Tenggara
Tiga pesan utama ClickEye — “AI yang sama, hasil yang berbeda,” “AI membuat draf, ahli memverifikasi,” dan “workflow terverifikasi yang dapat digunakan ulang” — adalah doktrin ini yang dibawa ke pasar lokal.
- AI yang sama, hasil berbeda — lingkungan yang menentukan hasil. Konsolidasikan definisi tool (satu scheduler, bukan tiga), tetapkan batas atas token respons tool, letakkan scaffolding log progres dan inisialisasi untuk tugas jangka panjang sejak hari pertama. Pola yang diterbitkan Anthropic menjadi praktik standar di commit pertama.
- AI membuat draf, ahli memverifikasi — human-in-the-loop bukan tentang mengurangi manusia, ini tentang menempatkan mereka dengan tepat. Setiap perubahan kode melewati AI spesialis kode (Codex dari OpenAI); pekerjaan domain didelegasikan ke model terkuat per domain (Claude Opus dari Anthropic untuk arsitektur dan database); gate akhir dipegang oleh pemimpin manusia berpengalaman.
- Workflow terverifikasi yang dapat digunakan ulang — harness itu sendiri adalah aset. Janji (18 prinsip yang diikuti tim), definisi peran (siapa me-review apa, kapan), dan alur otomatisasi terikat dalam satu sistem yang disalin ke commit pertama proyek berikutnya.
Untuk bagaimana doktrin ini sebenarnya beroperasi pada build nyata, kami menulis tulisan pendamping tentang 60 hari di dalam proyek internal ClickEye “Hawkeye”: “Menempatkan AI di kursi project manager.”
8. Penutup
Pada Desember 2024 sebuah lab AI mendeklarasikan doktrin dalam satu tulisan. Pada September 2025 ia mengirimkan doktrin itu sebagai produk bernama SDK. Pada periode yang sama sebuah pemerintah mengadopsi framework itu sebagai standar nasional. Pada evaluasi coding-agent, hasil bergerak dari 1,96% ke 82% dalam kurang dari dua tahun. AI bukan lagi demo. Desain lingkungan telah menjadi bagian dari model, permukaan tool, dan evaluasi.
ClickEye membawa doktrin ini ke Korea dan Asia Tenggara sebagai mitra eksekusi. Jika Anda ingin AI bukan sekadar diadopsi melainkan dikirim dengan lingkungan yang dirancang sejak hari pertama, silakan hubungi kami.
References
- Fourrier, C. dkk. (Juni 2023). What's going on with the Open LLM Leaderboard? HuggingFace. huggingface.co/blog/open-llm-leaderboard-mmlu
- Anthropic (Nov 2025). Advanced Tool Use. Tool Search Opus 4 49→74%, Opus 4.5 79,5→88,1%, 134K token tool-def → reduksi 85%. anthropic.com/engineering/advanced-tool-use
- Anthropic (Des 2024). Building Effective Agents. Workflows-vs-agents; prinsip Simplicity / Transparency / ACI. anthropic.com/research/building-effective-agents
- Anthropic (2025). Effective Harnesses for Long-Running Agents. anthropic.com/engineering/effective-harnesses-for-long-running-agents
- Anthropic (11 Sept 2025). Writing Tools for Agents. “Kontrak antara sistem deterministik dan agen non-deterministik” + batas default 25K token. anthropic.com/engineering/writing-tools-for-agents
- Anthropic (2025). Equipping Agents for the Real World with Agent Skills. Tiga tingkat progressive disclosure. anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills
- Anthropic (29 Sept 2025). Introducing Claude Sonnet 4.5. SWE-bench Verified 77,2% / high-compute 82,0%, OSWorld 61,4%, “30+ jam” coding otonom, peluncuran Claude Agent SDK. anthropic.com/news/claude-sonnet-4-5
- Anthropic (2025). Building Agents with the Claude Agent SDK. gather context → take action → verify work → repeat. anthropic.com/engineering/building-agents-with-the-claude-agent-sdk
- Jimenez, C. E. dkk. (2023). SWE-bench: Can Language Models Resolve Real-World GitHub Issues? arXiv:2310.06770. Claude 2 saat rilis: tingkat penyelesaian 1,96%. arxiv.org/abs/2310.06770
- OpenAI & Princeton (13 Agt 2024). Introducing SWE-bench Verified. Subset 500 instance terverifikasi manusia, 93 developer kontrak. openai.com/index/introducing-swe-bench-verified
- UK AI Security Institute & Meridian Labs. Inspect AI (MIT, Mei 2024–). inspect.aisi.org.uk
- UK AISI (31 Okt 2024). Autonomous Systems Evaluation Standard. “Semua evaluasi harus dibangun menggunakan Inspect.” ukgovernmentbeis.github.io/as-evaluation-standard