AI 아첨을 감지하는 것과 줄이는 것은 다르다 — 감점제 AI 리뷰어를 만든 이유
왜 AI는 항상 "좋습니다"라고 하는가 AI에게 코드 리뷰를 시키면 "잘 짰습니다"부터 나온다. 이건 AI가 거짓말을 하는 게 아니라 칭찬하도록 훈련된 결과다. 프롬프트로 "솔직하게 말해줘"라고 해도 근본적으로 바뀌지 않는다. AI 모델은 사용자가 '좋아요'를 누른 답변을 더 많이 만들도록 훈련된다. 이 방식을 RLHF(인간 피드백 기반 강화학습)라고 한다. 문제는 사람이 정확한 답보다 기분 좋은 답에 '좋아요'를 더 많이 누른다는 것이다. AI 입장에서는 동의하면 점수가 올라가고, 칭찬하면 점수가 올라간다. 그래서 아첨을 학습한다. Anthropic이 이 문제를 직접 연구해서 논문으로 발표 했다. 2026년 3월에는 Stanford 연구팀이 AI 챗봇의 아첨이 "위험한 수준" 이라는 결과를 냈다. 코드 리뷰에서 이 문제가 특히 위험하다. 코드를 보여주면 "구조가 깔끔합니다"로 시작한다. 버그가 있어도 "전반적으로 잘 작성되었습니다"를 먼저 말하고 문제를 조심스럽게 언급한다. AI가 동의했으니까 맞겠지. 이 가정이 가장 위험하다. 감점제 — 칭찬할 구조가 없는 채점표 만든 도구의 이름은 brutal-review다. 원리는 단순하다. 10점 만점에서 시작해서 감점만 한다. 가산점이 없다. "잘한 점"을 말할 칸이 채점표에 없으니, AI가 칭찬을 끼워넣을 여지가 줄어든다. 실제 결과는 이렇게 나온다. SUDYA MYASNIK (The Butcher) — Final Scorecard ============================================== 종목 1. 구조적 정확성(Structural Correctness): 0.9 /...