라벨이 벤치마크인 게시물 표시

Benchmark가 측정한 건 모델이 아니라 채점기였다 — Honcho/Hindsight 3 라운드 측정 후기

이미지
내 환경(Hermes)의 메모리 provider 두 개(Honcho·Hindsight)를 3 라운드에 걸쳐 비교했다. 1차 10/10 만점, 2차 7점대, 3차 4점대로 점수가 압축됐다. 처음엔 “task가 어려워져서”라고 봤다. 직접 답변을 보니 다른 이유였다. 요약 : 점수 10 → 7 → 4 압축의 진짜 원인은 task 난이도가 아니라 regex scorer false positive. approval_boundary 3.5점 답변이 manual review 5.0이었고, 5.0점 답변엔 risky implications가 남아 있었다. wrapper guardrail 패치까지 진행한 후기. 이런 적 있다면 글이 도움이 된다 도구·모델 비교 글에서 점수가 비슷하게 나와 어느 게 더 나은지 판단 못 한 적이 있다. LLM 답변 채점할 때 regex나 키워드 매칭이 진짜 평가를 한다고 믿어본 적이 있다. benchmark가 모델 약점이 아니라 측정 기구의 약점을 드러내는 건 처음 봤다. 측정 setup — Hermes 안에서 Hermes는 내 1인 운영 자동화 환경이다. 컴포넌트는 다음과 같다. ALIVE : canonical source-of-truth. 프로젝트 상태·결정·산출물 기록 Hermes core memory : compact durable preferences Honcho lab profile : Plastic Labs의 오픈소스 메모리 라이브러리. user-agent modeling, boundary discipline 실험용 Hindsight lab profile : semantic recall, entity graph 실험용 (내 환경 자체 구성) default Discord gateway : 사용자 I/O 메인 채널 Honcho는 stateful agent용 외부 오픈소스다. 내 환경에서는 lab profile로만 띄워두고 default gateway는 별도 inference로 운영한다. 둘 다 ...

로컬 LLM 코딩 벤치 — '예쁜 결과물'과 '깔끔한 코드'는 같은 모델이 아니다

이미지
두 채점이 정반대 답을 냈다 같은 HTML 출력을 두 채점관에 넘겼다. 한쪽은 “1위”, 다른 쪽은 “4위”라고 답했다. M4 Max 128GB에 ollama로 깔린 로컬 LLM 5종에 같은 프롬프트를 던지고, 코드 구조와 시각 충실도라는 두 기준으로 잰 결과다. 배경은 aimaster3658이 Threads에 올린 13장 이다. Qwen 3.6 27b·35b 같은 로컬 모델에 자동차 시차 애니메이션 HTML 프롬프트를 던지고 결과 스크린샷을 비교한 글이다. 그 글이 사용한 채점 기준은 하나 — 시각 결과물. 시각 결과물이 중요한 작업(데모·UI·애니메이션)이면 그 기준이 옳다. 1년 뒤 고쳐 쓸 코드라면 다른 기준이 필요하다. AI 모델 평가는 채점 기준 선언이다 — 무엇을 얻고 무엇을 잃을지 먼저 정해야 한다 . 끝에서 그 선언을 만드는 5단계를 정리한다. TL;DR 채점 기준 선택이 평가의 본질이며 모델 순위는 그 부산물이다. 같은 출력을 devil(코드 기준)로 재면 gpt-oss 120b가 1위, 시각 기준이면 qwen 35b A3B가 1위. supergemma4는 두 기준 모두에서 0점으로, 출력 자체가 깨진 결과다. 본인 평가 기준을 만드는 5단계 절차는 본문 후반에 정리한다. M4 Max 128GB에 깔린 5종 ollama 0.20.7 기준 설치된 모델: 모델 Quant 크기 qwen3.6:27b Q4_K_M 17.4 GB qwen3.6:35b-a3b-q8_0 Q8_0 (MoE A3B) 38.7 GB gemma4:26b Q4_K_M 18.0 GB supergemma4:26b Q8_0 26.9 GB gpt-oss:120b MXFP4 65.4 GB 같은 프롬프트(Threads 원본 한국어 번역 그대로), num_ctx=16384 , num_predict=16384 , temperature=0.7 . ollama API 콜...