2024년 5월 8일, 개발자이자 작가인 Simon Willison이 한 단어를 산업 담론에 박았다 — AI slop. 정의는 간결하다: (1) 무review로 인공적으로 생성됐고 (2) 요청하지 않은 사람에게 떠밀어진 콘텐츠.[1] 1년 반 만에 이 단어는 메리엄-웹스터 사전의 2025년 올해의 단어로 선정됐다.[2] 산업이 이 현상에 이름을 붙였다는 사실 자체가 신호다. 이 글은 그 신호 뒤의 산업 데이터를 정리하고, ClickEye가 왜 다층 검증 구조를 처음부터 디렉토리에 박아두는지를 보여준다.
1. slop의 정의 — ‘AI를 썼는가’가 아니라 ‘review가 있었는가’
Willison의 정의 중 가장 중요한 한 줄은 이것이다.
“sharing unreviewed content that has been artificially generated with other people is rude.”[1]
그는 같은 글에서 분명히 못 박는다 — “not all AI-generated content is slop.”[1]
즉 분기점은 AI를 썼는지 여부가 아니다. review와 책임이 어디에 있는지다. AI가 만든 출력이 적절한 검증과 책임 라인을 거쳐 사람의 판단으로 통과되면 그것은 도구의 산출물이다. 검증 없이 그대로 떠밀리면 — 코드 베이스에, 검색 결과에, 운영자 대시보드에 — 그것이 slop이 된다. 이 분기점이 단순한 미학 문제가 아니라 측정 가능한 산업 비용이라는 게 2024-2025년 자료의 핵심이다.
2. 산업이 측정하기 시작한 slop의 비용
코드 분야 — curl이 보고한 비율
오픈소스 HTTP 라이브러리 curl의 메인테이너 Daniel Stenberg는 2025년 들어 들어오는 보안 제출의 약 20%가 AI slop, 실제 취약점은 약 5%라고 보고했다. 각 false report 한 건마다 메인테이너 3-4명이 30분 ~ 수시간을 소비한다.[3] 무review로 떠밀린 AI 출력이 신뢰의 인프라 — 오픈소스 보안 보고 채널 — 를 비용 구조로 잡아먹기 시작한 것이다.
이 패턴은 Stack Overflow가 이미 2022년 12월에 봤다
2022년 12월, ChatGPT 공개 한 달 후 Stack Overflow는 ChatGPT가 생성한 답변의 게시를 임시 금지했다. 발표 verbatim:
“the average rate of getting correct answers from ChatGPT is too low, the posting of answers created by ChatGPT is substantially harmful to the site and to users who are asking and looking for correct answers... the primary problem is that while the answers which ChatGPT produces have a high rate of being incorrect, they typically look like they might be good.”[4]
“그럴듯해 보이지만 사실은 틀리는 비율이 높다” — 이 한 문장이 이후 산업이 만나는 모든 slop의 공통 패턴이다. 검증 layer가 빠지면 그럴듯한 출력이 그대로 통과된다.
패키지 환각 — 학술 연구가 측정한 수치
USENIX Security 2025에 발표된 Spracklen 외의 연구는 더 정량적이다. LLM이 코드 작성 시 존재하지 않는 패키지 이름을 추천하는 비율을 측정한 결과 — 상용 LLM에서 5.2%, 오픈소스 LLM에서 21.7%. 총 576,000개 샘플에서 205,474개의 unique 가짜 패키지 이름이 추출됐다.[5] 이게 단순 통계가 아닌 이유는 다음 사건 때문이다.
Lasso Security 연구자들이 LLM이 자주 환각하는 패키지 이름 huggingface-cli를 실제로 PyPI에 등록해 PoC로 공개했다. 결과는 한 달 만에 30,000건 이상의 다운로드, Alibaba를 포함한 다수 기업·프로젝트가 이를 참조했다.[6] 새 공격 카테고리 slopsquatting의 시작이다. AI가 환각으로 추천한 패키지 이름을 공격자가 선점 등록해 supply chain을 오염시키는 구조다. 무review 채택이 곧 보안 사건이라는 등식의 가장 구체적인 증거다.
Copilot 보안 연구
NYU 연구진(Pearce et al.)이 1,689개 프로그램을 89개 CWE 시나리오로 평가한 결과, GitHub Copilot이 생성한 코드 중 약 40%가 보안 취약점을 포함했다.[7] 이는 Copilot 자체의 결함이 아니다 — AI 생성 코드를 보안 review 없이 그대로 채택했을 때 생기는 비용의 기준선이다.
코드 베이스 자체의 변화 — GitClear 211M 라인 분석
GitClear가 2025년 발표한 211M 라인 분석은 AI assistant 도입과 시간적으로 일치하는 코드 베이스의 구조적 변화를 보여준다. 리팩토링 비율이 2021년 25%에서 2024년 10% 이하로 축소됐고, 같은 기간 복사-붙여넣기 clone 비율이 8.3%에서 12.3%로 상승했다.[8] AI 어시스턴트가 코드를 빠르게 생성하지만, 그것을 다시 정리하는 review 단계가 빠지면 코드 베이스 자체가 천천히 부패한다. 빠름의 비용이 미래의 유지보수로 옮겨가는 구조다.
3. 분기점은 review의 자리
위의 다섯 가지 데이터 포인트가 한 방향을 가리킨다. 문제는 AI를 사용한 사실이 아니다. AI 출력이 review와 책임의 layer를 통과하지 않고 그대로 production·코드 베이스·운영 현장에 떠밀린 자리다. Willison의 정의가 정확히 이 분기점을 짚는다 — 무review가 slop을 만든다.
이 결론은 ClickEye의 마케팅 메시지 셋 중 하나 — “AI 초안, 전문가 검증”(Human-in-the-loop) — 의 산업 근거다. 우리가 처음부터 다층 검증 구조를 디렉토리에 박아둔 이유가 여기에 있다.
4. ClickEye의 다층 검증이 작동하는 자리
review를 한 곳에 몰지 않고 여러 layer로 나누어 자동화한다. AI 출력이 production에 닿기 전 통과해야 하는 검증 자리는 다음과 같다.
- PM AI(Gemini)의 model-tier 분류 — 모든 작업을 받아 난이도 1·2·3을 자동 배정. 보안 관련 작업과 DB 작업은 정책상 강제로 가장 강한 모델(Claude Opus 확장 모드)에 위임. 그럴듯해 보이지만 사실은 틀리는 출력이 가장 잘 만들어지는 영역(보안, DB, 크로스도메인)에서 가장 깊은 검증을 자동으로 깐다.
- 코드 변경의 코드 리뷰 AI(Codex) 필수 통과 — 모든 코드 제안은 코드 전문 AI의 검증을 거쳐야 머지된다. Stack Overflow가 2022년에 경고한 ‘그럴듯하지만 틀리는’ 출력을 자동으로 걸러내는 첫 단계다.
- 도메인 전문 AI(Claude Opus)의 audit — 아키텍처·DB·운영 안정성·보안 같은 고난도 도메인은 도메인 전문 AI가 별도로 검수한다. 단일 모델의 환각을 다른 모델·다른 관점의 review로 교차 검증하는 구조다. (앞서 본 Hawkeye의 ADR-068 사례에서 platform-expert AI가 일주일 후 다섯 개의 누락을 찾아낸 게 정확히 이 자리다.)
- 설계와 코드를 같은 PR로 묶기(design-first + code-driven ADR) — 사양 없이 코드가 들어가지 않고, 코드와 공식 설계 결정 문서가 한 묶음으로 commit된다. 사양과 코드가 따로 흘러서 생기는 환각을 구조적으로 차단한다.
- 인간 리더의 최종 머지 게이트 — Codex review와 Opus audit을 모두 통과해도 인간 리더의 sanity check 없이는 머지되지 않는다. Willison이 말한 “sharing unreviewed content” — 즉 review와 책임이 빠진 출력 — 이 외부에 닿을 수 있는 가장 마지막 자리에 사람이 있다.
이 다섯 layer의 목적은 한 가지다 — AI 출력이 review와 책임의 자리를 통과하지 않고 production에 닿는 경로를 모두 막는다. 다층 review가 단일 review보다 효과적이라는 사실은 1980년대 Fagan inspection 이래의 결함 탐지 연구가 일관되게 보고해온 결론이기도 하다.
5. ClickEye가 약속하는 것
ClickEye 사이트의 비교 카피 — “불확실·품질 편차” vs “운영 가능 상태 납품 보장” — 의 backing이 이것이다. AI가 빠르다는 사실은 출발점일 뿐, 그 출력에 책임을 묻는 자리가 디렉토리로 박혀 있어야 그 속도가 진짜 가치가 된다. ClickEye는 그 자리들을 .claude/ 폴더 — 18개의 약속, 14개의 역할 정의, 자동화된 호출 흐름 — 로 코드화하고, 다음 프로젝트의 첫 commit에 그대로 복제한다.
이 doctrine과 사례에 대한 자세한 글은 별도로 정리해두었다.
- 환경이 결과를 만든다 — AI 시대 진짜 차별화는 어디서 오는가 (글로벌 산업 doctrine: Anthropic의 4편 + 영국 정부 평가 표준 + 코딩 평가 1.96% → 82%)
- AI에게 매니저 자리를 맡긴다는 것 — ClickEye가 만드는 개발 문화의 변화 (ClickEye 내부 제품 Hawkeye에서 이 구조가 실제 작동한 세 가지 사건)
6. 마치며
AI는 빨라졌다. 더 빨라질 것이다. 그러나 속도가 책임 없이 굴러가는 자리에서 산업은 비용을 치르고 있다. curl의 메인테이너 시간, supply chain의 신뢰, 코드 베이스의 미래 유지보수, 그리고 무엇보다 — 우리에게 시스템을 맡긴 고객의 신뢰. ClickEye는 이 비용을 처음부터 차단하기 위해 다층 review를 디렉토리로 박아둔다. AI를 도입하는 게 아니라 review까지 함께 설계된 시스템이 필요하다면 언제든 문의해주시기 바란다.
References
- Willison, S. (2024.05.08). Slop is the new name for unwanted AI-generated content. “sharing unreviewed content that has been artificially generated with other people is rude”. simonwillison.net/2024/May/8/slop
- Merriam-Webster (2025). Word of the Year 2025: “slop”. merriam-webster.com/wordplay/word-of-the-year
- Stenberg, D. (2025). curl 보안 제출의 ~20%는 AI slop. curl 메인테이너의 공개 보고. (LWN, Hackster, the Register 등이 2025년 인터뷰·기사로 다룸; 1차 출처는 Stenberg 본인 블로그 daniel.haxx.se)
- Stack Overflow (2022.12). Temporary policy: Generative AI (e.g., ChatGPT) is banned. “the average rate of getting correct answers from ChatGPT is too low”. meta.stackoverflow.com/questions/421831
- Spracklen, J. et al. (USENIX Security 2025). We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs. 상용 LLM 5.2% / 오픈소스 21.7% / 205,474개 unique fake package name. arxiv.org/abs/2406.10279
- Lasso Security (2024). Diving Deeper into AI Package Hallucinations: Slopsquatting in the wild. huggingface-cli PoC, 30,000+ 다운로드. lasso.security/blog/ai-package-hallucinations
- Pearce, H. et al. (2022, IEEE S&P). Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions. 1,689 프로그램, 89 CWE 시나리오 → 약 40%에서 보안 결함 발견. arxiv.org/abs/2108.09293
- GitClear (2025). AI Copilot Code Quality: 2025 Look at Refactoring, Reuse, and Read-Time. 211M 라인 분석 — refactoring 25% → 10% 이하, 복사-붙여넣기 clone 8.3% → 12.3%. gitclear.com/ai_assistant_code_quality_2025_research