오케스트레이션이 제품이 됐다 — Sakana Fugu가 말하는 것과 안 말하는 것

오케스트레이션이 제품이 됐다 — Sakana Fugu가 말하는 것과 안 말하는 것

Sakana Fugu는 그 오케스트레이션 자체를 모델로 만들어 파는 제품이다. 오늘(2026-06-22) 정식 출시됐다.

써보진 않았다. 그래서 후기는 아니다. 공개된 자료로 주장과 빈칸만 따졌다.

한 줄로 정리하면 이렇다. Fugu에는 진짜 새로운 한 가지와, 아직 아무도 독립 검증하지 않은 여러 빈칸이 같이 들어 있다.

누가 읽으면 좋은가

  • 멀티에이전트·오케스트레이션을 직접 엮어본 사람
  • “모델이 모델을 부린다”가 마케팅인지 진짜 새 구조인지 궁금한 사람
  • LangGraph나 OpenRouter를 쓰면서 그다음이 뭔지 보는 사람

Fugu가 진짜 새로운 한 가지

Fugu는 라우팅 규칙을 손으로 짠 게 아니라, 오케스트레이션을 학습한 모델이다. 작업을 받으면 직접 풀거나, 전문 모델들을 불러 팀을 꾸리고, 검증·합성까지 한다. 자기 자신을 재귀로 다시 부르며 “1차 답이 부족했다”를 인지하고 교정하기도 한다.

근거는 Sakana의 ICLR 2026 논문 두 편이다.

TRINITY(arXiv 2512.04695)는 진화 전략으로 학습한 0.6B 지휘자가 Thinker·Worker·Verifier 역할을 나눠주고, The Conductor는 7B 모델을 강화학습으로 훈련해 자연어 협응 전략을 스스로 찾게 한다. Fugu는 이 둘을 개선해 상품화한 것이다(제품 지휘자 크기는 비공개).

풀에는 Opus 4.8, Gemini 3.1 Pro, GPT-5.5가 들어간다. 그리고 이 풀을 지휘해 풀 멤버 각각보다 더 잘한다고 주장한다. 라우터(한 개 고르기)도 프레임워크(손으로 배선)도 아닌, “훈련된 오케스트레이터 = 모델”이라는 자리는 카테고리상 분명히 새롭다.

그런데 — 빈칸들

여기서부터가 불편한 부분이다.

벤치마크는 전부 Sakana 자체 보고고 독립 검증이 아직 없다. Fugu Ultra가 SWE-Bench Pro 73.7로 Opus 4.8(69.2)을 앞선다지만, 정작 풀에 없는 Fable 5가 그 벤치와 Humanity’s Last Exam에서 1위다.

더 큰 빈칸은 풀 구성이다. 성능이 풀에 달렸는데, open 모델과 closed 모델을 각각 몇 %나 쓰는지는 공개하지 않았다. 풀이 깜깜이면 점수의 출처도 깜깜이다.

소버린 AI라는 서사도 갈린다. Fugu는 “수출통제 없는 프런티어 역량”을 내세우지만, 결국 Opus·GPT·Gemini라는 미국 랩 모델에서 지능을 빌려 쓴다. 통제를 우회한다기보다, 그 벤더들에게 의존을 옮긴 쪽에 가깝다.

운영 비용도 작지 않다. 모델을 여러 개 부르니 무거운 작업은 메시지당 10달러까지 든다.

모델이 모델을 고르는 구조라 “어느 모델이 내 컨텍스트의 어느 조각을 봤나”를 추적하기 어렵고, 이건 규제 환경에서 치명적이다. 참고로 EU·EEA에서는 아직 못 쓴다.

라우터도 프레임워크도 아닌 자리

Fugu의 위치를 표로 보면 분명해진다.

범주 예시 동작
모델 라우터 OpenRouter·RouteLLM 프롬프트당 최적 한 개 고름
오케스트레이션 프레임워크 LangGraph·CrewAI·AutoGen 역할·흐름을 사람이 배선
Fugu 다중 모델 협업을 모델이 학습으로 익힘

핵심 주장은 “학습된 지휘가 사람이 짠 지휘를 벤치와 비용에서 이긴다”는 것이다.

그리고 Fugu만 이 길을 가는 게 아니다. OpenRouter도 비슷한 결합형(Fusion)을 내놨다. 카테고리 자체는 진짜로 열리고 있다.

새 모델 클래스인가, 영리한 포장인가

확실한 건 “오케스트레이션의 상품화”까지다. 사람이 손으로 엮던 걸 모델 하나로 판다는 점은 실재하고, 그건 의미가 있다.

확실하지 않은 건 “새 지능 계층”이라는 한 단계 위의 주장이다.

진짜 질문은 하나다. trained orchestration이 독립 검증에서도 단일 프런티어 모델을 이기는가. 그 답이 나오기 전까지, 풀에 없는 Fable 5가 일부 1위라는 사실은 “잘 지휘하면 따라잡지만, 가장 센 단일 모델이 여전히 더 셀 수 있다”는 쪽을 가리킨다.

그래서 내 잠정 판단은 이렇다. 영리한 포장은 맞지만 포장만은 아니다. 다만 “새 클래스”로 부르는 건 독립 벤치가 나온 뒤로 미룬다.

한계

  • 직접 써본 글이 아니다. 공개 자료 기반 분석이고, 핵심 수치는 전부 Sakana 자체 보고다.
  • 독립 평가나 풀 구성 공개가 나오면 결론이 바뀔 수 있다. 그때 갱신한다.
  • 가격·지역 정책은 출시 시점 기준이라 변동될 수 있다.

참고


저자 — Jason 황재승

cd4761.blogspot.com에서 개발 자동화와 AI 도구 운영 기록을 쓴다. 8년 차 프론트엔드. 멀티에이전트 오케스트레이션을 손으로 엮으며, 새 도구는 써보기 전이라도 공개 자료로 주장과 빈칸을 먼저 따진다.

태그: #SakanaFugu #AI오케스트레이션 #멀티에이전트 #LLM #모델라우팅 #AI모델 #SakanaAI #에이전트

댓글

이 블로그의 인기 게시물

맥 스튜디오 M4 Max 128GB 로컬 LLM 4개 속도 비교 — gemma4·llama3.3·qwen3 실측

Claude Opus 4.7 출시 총정리 — 뭐가 달라졌고 지금 써야 하나

Claude Code로 블로그 발행 15분을 1줄로 — 해고 후 첫 자동화 경험