하네스 엔지니어링 측정 1편 — AGENTS.md 비우면 Codex도 fail-fast 안 지킨다

이미지
Codex와 Claude에 같은 명세를 3 condition으로 던졌다 Codex와 Claude에 동일한 Python 함수 명세를 3가지 setup에서 돌렸다.  fail-fast 충실도가 약→중→강으로 갈렸고, 그 차이는 모델이 아니라  AGENTS.md 같은 하네스 파일 적용 여부에서 나왔다. 어제 발행한 하네스 엔지니어링 3대 구성요소 글에서  카파시의 이론(컨텍스트 파일·자동 강제 시스템·가비지 컬렉션)을 정리했다.  이 글은 그 이론을 같은 명세 1건으로 직접 측정한 1차 데이터다. YES 3번 — 이런 적 있다면 이 글이 답이 된다 Codex와 Claude Code 차이를 1주 써보고 잘 모르겠다는 결론을 낸 적 있다. 같은 task로 통제 비교를 안 했기 때문에 모델 차이인지 setup 차이인지 분리 못 했다. 도구 비교 글은 많은데 “차이가 어디에서 나오나”를 측정한 글은 본 적 없다. 측정 setup 명세는 Blogger 발행 검증 함수다.  verify_published_post(service, blog_id, post_id, expected_title, min_content_length)   발행 직후 Blogger API로 post를 재조회해  title 일치·content 최소 길이를 검증한다.  fail-fast 규칙 적용 (silent default 금지·예외 그대로 raise). 3 condition: Codex v1 — 하네스 0. AGENTS.md 없음. 사용자 시스템 인스트럭션 없음. Claude Opus 4.7 — CLAUDE.md 자동 로드. fail-fast 규칙·Iron Law of Verification 글로벌 메모리에 있음. Codex v2 — Codex v1과 같은 모델. AGENTS.md를 작업 디렉토리에 두고 프롬프트에서 “AGENTS.md 규칙을 적용하라” 명시 인용. 같은 모델·다른 하네스 비교는 1과 ...

하네스 엔지니어링 — CLAUDE.md만 쓴다고 끝나지 않는다 (3대 구성요소)

하네스 엔지니어링 — CLAUDE.md만 쓴다고 끝나지 않는다 (3대 구성요소) CLAUDE.md를 썼는데도 Claude가 같은 실수를 반복한다면, 그건 CLAUDE.md가 부족해서가 아니다. 하네스 엔지니어링 이 부족해서다. CLAUDE.md는 하네스의 한 구성요소일 뿐이다. 안드레 카파시(전 OpenAI 창립 멤버, 전 Tesla AI 책임자)가 17분짜리 영상 에서 정의한 이 개념의 핵심은 한 줄로 압축된다. “모델이 아닌 모든 것이 하네스다.” 요약 : CLAUDE.md만으로는 Claude가 같은 실수를 반복한다. 하네스 엔지니어링은 컨텍스트 파일, 자동 강제 시스템, 가비지 컬렉션 3가지로 이뤄진다. 이 글은 카파시 프레임의 한국어 정리에 더해, 1인 운영자가 실제로 어떻게 굴리고 있는지 메커니즘 한두 개씩 보여준다. CLAUDE.md “어떻게 쓰나”는 이전 글 에서 다뤘다. 이 글은 Claude Code를 매일 쓰면서 같은 실수를 반복하는 사람을 위해 썼다. 입문자라면 이전 글이 먼저다. 이런 적 있다면 이 글이 도움이 된다 CLAUDE.md에 “console.log 금지”라고 썼는데 며칠 뒤 또 console.log가 박힌 코드를 받은 적이 있다. pre-commit이 없어서 타입 에러 그대로 push된 코드를 배포한 적이 있다. 에이전트가 만든 임시 함수와 미사용 import가 6개월째 쌓여 있는 코드를 본 적이 있다. 세 가지 모두 같은 원인이다. 부탁만 했고, 강제하지 않았다. 카파시는 영상에서 한 줄로 정리했다. “프롬프트 = 부탁, 하네스 = 강제.” 1. 컨텍스트 파일 — CLAUDE.md CLAUDE.md는 매 세션 시작에 Claude가 항상 읽는 기준 문서다. 작성법은 별도 글에서 다뤘으니, 여기서는 운영 메커니즘 하나만 보여준다. 위치 적용 범위 용도 ~/.claude/CLAUDE.md 모든 프...