오케스트레이션이 제품이 됐다 — Sakana Fugu가 말하는 것과 안 말하는 것
Sakana Fugu는 그 오케스트레이션 자체를 모델로 만들어 파는 제품이다. 오늘(2026-06-22) 정식 출시됐다.
써보진 않았다. 그래서 후기는 아니다. 공개된 자료로 주장과 빈칸만 따졌다.
한 줄로 정리하면 이렇다. Fugu에는 진짜 새로운 한 가지와, 아직 아무도 독립 검증하지 않은 여러 빈칸이 같이 들어 있다.
누가 읽으면 좋은가
- 멀티에이전트·오케스트레이션을 직접 엮어본 사람
- “모델이 모델을 부린다”가 마케팅인지 진짜 새 구조인지 궁금한 사람
- LangGraph나 OpenRouter를 쓰면서 그다음이 뭔지 보는 사람
Fugu가 진짜 새로운 한 가지
Fugu는 라우팅 규칙을 손으로 짠 게 아니라, 오케스트레이션을 학습한 모델이다. 작업을 받으면 직접 풀거나, 전문 모델들을 불러 팀을 꾸리고, 검증·합성까지 한다. 자기 자신을 재귀로 다시 부르며 “1차 답이 부족했다”를 인지하고 교정하기도 한다.
근거는 Sakana의 ICLR 2026 논문 두 편이다.
TRINITY(arXiv 2512.04695)는 진화 전략으로 학습한 0.6B 지휘자가 Thinker·Worker·Verifier 역할을 나눠주고, The Conductor는 7B 모델을 강화학습으로 훈련해 자연어 협응 전략을 스스로 찾게 한다. Fugu는 이 둘을 개선해 상품화한 것이다(제품 지휘자 크기는 비공개).
풀에는 Opus 4.8, Gemini 3.1 Pro, GPT-5.5가 들어간다. 그리고 이 풀을 지휘해 풀 멤버 각각보다 더 잘한다고 주장한다. 라우터(한 개 고르기)도 프레임워크(손으로 배선)도 아닌, “훈련된 오케스트레이터 = 모델”이라는 자리는 카테고리상 분명히 새롭다.
그런데 — 빈칸들
여기서부터가 불편한 부분이다.
벤치마크는 전부 Sakana 자체 보고고 독립 검증이 아직 없다. Fugu Ultra가 SWE-Bench Pro 73.7로 Opus 4.8(69.2)을 앞선다지만, 정작 풀에 없는 Fable 5가 그 벤치와 Humanity’s Last Exam에서 1위다.
더 큰 빈칸은 풀 구성이다. 성능이 풀에 달렸는데, open 모델과 closed 모델을 각각 몇 %나 쓰는지는 공개하지 않았다. 풀이 깜깜이면 점수의 출처도 깜깜이다.
소버린 AI라는 서사도 갈린다. Fugu는 “수출통제 없는 프런티어 역량”을 내세우지만, 결국 Opus·GPT·Gemini라는 미국 랩 모델에서 지능을 빌려 쓴다. 통제를 우회한다기보다, 그 벤더들에게 의존을 옮긴 쪽에 가깝다.
운영 비용도 작지 않다. 모델을 여러 개 부르니 무거운 작업은 메시지당 10달러까지 든다.
모델이 모델을 고르는 구조라 “어느 모델이 내 컨텍스트의 어느 조각을 봤나”를 추적하기 어렵고, 이건 규제 환경에서 치명적이다. 참고로 EU·EEA에서는 아직 못 쓴다.
라우터도 프레임워크도 아닌 자리
Fugu의 위치를 표로 보면 분명해진다.
| 범주 | 예시 | 동작 |
|---|---|---|
| 모델 라우터 | OpenRouter·RouteLLM | 프롬프트당 최적 한 개 고름 |
| 오케스트레이션 프레임워크 | LangGraph·CrewAI·AutoGen | 역할·흐름을 사람이 배선 |
| Fugu | — | 다중 모델 협업을 모델이 학습으로 익힘 |
핵심 주장은 “학습된 지휘가 사람이 짠 지휘를 벤치와 비용에서 이긴다”는 것이다.
그리고 Fugu만 이 길을 가는 게 아니다. OpenRouter도 비슷한 결합형(Fusion)을 내놨다. 카테고리 자체는 진짜로 열리고 있다.
새 모델 클래스인가, 영리한 포장인가
확실한 건 “오케스트레이션의 상품화”까지다. 사람이 손으로 엮던 걸 모델 하나로 판다는 점은 실재하고, 그건 의미가 있다.
확실하지 않은 건 “새 지능 계층”이라는 한 단계 위의 주장이다.
진짜 질문은 하나다. trained orchestration이 독립 검증에서도 단일 프런티어 모델을 이기는가. 그 답이 나오기 전까지, 풀에 없는 Fable 5가 일부 1위라는 사실은 “잘 지휘하면 따라잡지만, 가장 센 단일 모델이 여전히 더 셀 수 있다”는 쪽을 가리킨다.
그래서 내 잠정 판단은 이렇다. 영리한 포장은 맞지만 포장만은 아니다. 다만 “새 클래스”로 부르는 건 독립 벤치가 나온 뒤로 미룬다.
한계
- 직접 써본 글이 아니다. 공개 자료 기반 분석이고, 핵심 수치는 전부 Sakana 자체 보고다.
- 독립 평가나 풀 구성 공개가 나오면 결론이 바뀔 수 있다. 그때 갱신한다.
- 가격·지역 정책은 출시 시점 기준이라 변동될 수 있다.
참고
- 프롬프트 엔지니어링·에이전트·하네스, 무엇이 다른가
- 하네스 엔지니어링 — CLAUDE.md만 쓴다고 끝나지 않는다
- 테스트는 다 통과했는데 실제론 0개를 긁었다 — AI가 짠 수집기의 함정
저자 — Jason 황재승
cd4761.blogspot.com에서 개발 자동화와 AI 도구 운영 기록을 쓴다. 8년 차 프론트엔드. 멀티에이전트 오케스트레이션을 손으로 엮으며, 새 도구는 써보기 전이라도 공개 자료로 주장과 빈칸을 먼저 따진다.
태그: #SakanaFugu #AI오케스트레이션 #멀티에이전트 #LLM #모델라우팅 #AI모델 #SakanaAI #에이전트
댓글
댓글 쓰기