Pada 8 Mei 2024, developer dan penulis Simon Willison menyematkan satu kata pada percakapan industri: AI slop. Definisinya rapi — konten yang (1) dihasilkan secara artifisial tanpa review yang cermat dan (2) didorong pada audiens yang tidak memintanya.[1] Satu setengah tahun kemudian Merriam-Webster menamakan kata itu sebagai Word of the Year 2025.[2] Ketika sebuah industri memberi nama pada sebuah fenomena, itu sendiri adalah sinyal. Tulisan ini menjabarkan data di balik sinyal itu dan menunjukkan mengapa ClickEye mengkodifikasi struktur verifikasi berlapis sebagai direktori sejak commit pertama.
1. Definisinya — garisnya bukan “Anda pakai AI?” melainkan “ada review?”
Kalimat Willison yang paling penting adalah ini:
“Sharing unreviewed content that has been artificially generated with other people is rude.”[1]
Dia menyatakan konsekuensinya dalam tulisan yang sama: “Not all AI-generated content is slop.”[1]
Garis pembedanya bukan apakah AI digunakan. Tetapi di mana review dan akuntabilitas berada. Output AI yang melewati verifikasi yang tepat dan penilaian manusia adalah output dari sebuah alat. Output yang sama yang didorong tanpa review — ke dalam codebase, hasil pencarian, dashboard operator — menjadi slop. Garis itu bukan sekadar isu estetika; data 2024-2025 menunjukkan ia adalah biaya industri yang dapat diukur.
2. Industri mulai mengukur biaya slop
Kode — rasio yang dilaporkan curl
Daniel Stenberg, maintainer pustaka HTTP open-source curl, melaporkan bahwa pada 2025 sekitar 20% pengajuan keamanan yang masuk adalah AI slop, sementara hanya ~5% adalah kerentanan nyata. Setiap laporan palsu menghabiskan 30 menit hingga beberapa jam dari tiga hingga empat maintainer.[3] Output AI tanpa review mulai menggerogoti basis biaya infrastruktur kepercayaan — saluran pelaporan keamanan open-source dalam kasus ini.
Stack Overflow melihat polanya sejak Desember 2022
Sebulan setelah ChatGPT diluncurkan, Stack Overflow melarang sementara jawaban yang dihasilkan ChatGPT. Pengumumannya, verbatim:
“The average rate of getting correct answers from ChatGPT is too low... the primary problem is that while the answers which ChatGPT produces have a high rate of being incorrect, they typically look like they might be good.”[4]
“Terlihat masuk akal tapi sering salah” — satu kalimat ini menangkap pola umum di balik setiap kasus slop yang dilihat industri sejak saat itu. Tanpa lapisan verifikasi, output yang tampak masuk akal meluncur langsung.
Halusinasi paket — pengukuran akademik
Paper USENIX Security 2025 oleh Spracklen dkk. mengkuantifikasi mode kegagalan berikutnya. Saat LLM menghasilkan kode, kadang mereka merekomendasikan nama paket yang tidak ada. Rasio yang terukur: LLM komersial 5,2%, LLM open-source 21,7%. Pada 576.000 sampel, 205.474 nama paket palsu unik diekstraksi.[5] Ini menjadi lebih dari sekadar statistik karena satu alasan.
Peneliti Lasso Security benar-benar mendaftarkan huggingface-cli — salah satu nama paket yang paling sering dihalusinasi — di PyPI sebagai proof of concept. Dalam sebulan paket itu menerima lebih dari 30.000 unduhan, dan dirujuk oleh berbagai perusahaan dan proyek termasuk Alibaba.[6] Kategori serangan baru bernama slopsquatting terbuka: penyerang mendaftarkan terlebih dahulu nama paket yang dihalusinasi AI, dan supply chain menjadi tercemar. Adopsi tanpa review sama dengan insiden keamanan kini menjadi persamaan yang terdokumentasi.
Keamanan Copilot
Peneliti NYU Pearce dkk. mengevaluasi 1.689 program di 89 skenario CWE dan menemukan sekitar 40% kode yang dihasilkan GitHub Copilot mengandung kerentanan keamanan.[7] Itu bukan cacat Copilot sendiri — itu adalah biaya dasar dari menerima kode yang dihasilkan AI tanpa review keamanan.
Codebase sendiri berubah — studi 211 juta baris GitClear
Analisis GitClear 2025 atas 211 juta baris kode menunjukkan pergeseran struktural dalam codebase yang sejalan secara temporal dengan adopsi AI assistant. Rasio refactoring runtuh dari 25% pada 2021 menjadi di bawah 10% pada 2024, sementara rasio clone copy-paste naik dari 8,3% menjadi 12,3% di jendela yang sama.[8] AI assistant menghasilkan dengan cepat, tetapi ketika langkah review yang membersihkan setelahnya dilewati, codebase perlahan membusuk. Biaya kecepatan dibayar kemudian, dalam pemeliharaan.
3. Garis pembedanya adalah kursi review
Lima titik data yang menunjuk ke arah yang sama. Masalahnya bukan AI yang digunakan. Tetapi output AI yang mencapai produksi, codebase, atau lantai operasi tanpa melewati lapisan review dan akuntabilitas. Definisi Willison menyematkan tepat garis itu — kursi tanpa review adalah tempat slop dibuat.
Kesimpulan ini adalah bukti industri di balik salah satu pesan utama ClickEye — “AI membuat draf, ahli memverifikasi” (human-in-the-loop). Inilah mengapa kami mengkodifikasi struktur verifikasi berlapis sebagai direktori sejak hari pertama.
4. Di mana verifikasi berlapis ClickEye sebenarnya berada
Review dipisah ke beberapa lapisan alih-alih dikumpulkan di satu kursi, dan setiap lapisan diotomatisasi. Sebelum output AI mencapai produksi, ia harus melewati:
- AI PM (Gemini) mengklasifikasikan setiap tugas berdasarkan tier — setiap tiket mendapat tingkat kesulitan otomatis (1, 2, 3). Pekerjaan sensitif keamanan dan database secara kebijakan dipaksa ke Tier 3 dan dirutekan ke model terkuat (Claude Opus extended). Area di mana output ‘tampak masuk akal tapi salah’ paling berbahaya (keamanan, DB, lintas-domain) otomatis menerima review terdalam.
- AI code-review wajib (Codex) pada setiap perubahan kode — setiap perubahan kode yang diajukan melewati AI spesialis kode sebelum merge. Ini adalah filter pertama untuk output “tampak masuk akal tapi salah” yang diperingatkan Stack Overflow pada 2022.
- Audit AI ahli domain (Claude Opus) — arsitektur, database, keandalan situs, dan keamanan diaudit oleh AI ahli domain. Halusinasi satu model diperiksa silang oleh model berbeda dari sudut pandang berbeda. (Dalam studi kasus Hawkeye kami, ini persis kursi tempat audit platform-expert menemukan lima gap seminggu setelah desain — lihat tulisan pendamping.)
- Design-first + desain-dan-kode-dibundel-bersama — tidak ada kode masuk tanpa spec, dan spec hidup di perubahan kode yang sama dengan kode itu sendiri. Drift antara niat dan implementasi — lahan subur untuk halusinasi — diblokir secara struktural.
- Gate merge akhir pemimpin manusia — bahkan setelah review Codex dan audit Opus, tidak ada merge tanpa sanity check manusia. Tempat terakhir di mana “konten tanpa review” bisa mencapai luar dipegang oleh seseorang.
Tujuan tunggal dari lima lapisan ini adalah memblokir setiap jalur di mana output AI mencapai produksi tanpa melewati review dan akuntabilitas. Temuan bahwa review berlapis mengungguli review single-pass juga merupakan salah satu kesimpulan paling stabil dalam riset deteksi cacat software, kembali ke Fagan inspections tahun 1980-an.
5. Apa yang ClickEye komitmenkan
Copy perbandingan di situs ClickEye — “tidak pasti, tidak konsisten” vs “jaminan pengiriman siap produksi” — didukung tepat oleh struktur ini. Kecepatan AI adalah titik awal; kecepatan hanya menjadi nilai sesungguhnya ketika kursi yang memegang akuntabilitas atas output dikodifikasi sebagai kebijakan. ClickEye mengkodifikasi kursi-kursi itu di direktori .claude/ proyek — 18 janji tim, 14 definisi peran eksplisit, alur invokasi terotomatisasi — dan menyalinnya ke commit pertama setiap proyek berikutnya.
Bacaan pendamping tentang doktrin dan kasus nyata:
- Lingkungan yang menentukan hasil — dari mana diferensiasi AI sebenarnya berasal (doktrin industri global: empat tulisan engineering Anthropic + standar evaluasi pemerintah Inggris + evaluasi coding bergerak dari 1,96% ke 82%)
- Menempatkan AI di kursi project manager — pergeseran budaya pengembangan di balik ClickEye (tiga peristiwa konkret dari produk internal ClickEye, Hawkeye, di mana struktur ini benar-benar beroperasi)
6. Penutup
AI itu cepat. Akan menjadi lebih cepat. Tetapi industri sekarang membayar biaya kecepatan yang berjalan tanpa akuntabilitas — dalam waktu maintainer curl, kepercayaan supply chain, masa depan pemeliharaan codebase, dan di atas semuanya kepercayaan klien yang menempatkan sistem di tangan kami. ClickEye memblokir biaya itu sejak awal dengan mengkodifikasi review berlapis sebagai direktori. Jika Anda membutuhkan AI bukan sekadar diadopsi melainkan dikirim dengan kursi review yang dirancang sejak hari pertama, silakan hubungi kami.
References
- Willison, S. (8 Mei 2024). Slop is the new name for unwanted AI-generated content. “sharing unreviewed content that has been artificially generated with other people is rude”. simonwillison.net/2024/May/8/slop
- Merriam-Webster (2025). Word of the Year 2025: “slop”. merriam-webster.com/wordplay/word-of-the-year
- Stenberg, D. (2025). ~20% pengajuan keamanan curl adalah AI slop. Laporan publik oleh maintainer curl (sumber asli di daniel.haxx.se; diliput LWN, The Register, Hackster).
- Stack Overflow (Des 2022). Temporary policy: Generative AI (e.g., ChatGPT) is banned. “The average rate of getting correct answers from ChatGPT is too low”. meta.stackoverflow.com/questions/421831
- Spracklen, J. dkk. (USENIX Security 2025). We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs. LLM komersial 5,2%; open-source 21,7%; 205.474 nama paket palsu unik. arxiv.org/abs/2406.10279
- Lasso Security (2024). Diving Deeper into AI Package Hallucinations: Slopsquatting in the wild. PoC huggingface-cli, 30.000+ unduhan. lasso.security/blog/ai-package-hallucinations
- Pearce, H. dkk. (2022, IEEE S&P). Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions. ~40% dari 1.689 program di 89 skenario CWE mengandung kerentanan keamanan. arxiv.org/abs/2108.09293
- GitClear (2025). AI Copilot Code Quality: 2025 Look at Refactoring, Reuse, and Read-Time. Analisis 211 juta baris — refactoring 25% → di bawah 10%, clone copy-paste 8,3% → 12,3%. gitclear.com/ai_assistant_code_quality_2025_research