9B 모델 하나로 GPT-4급 코딩 에이전트를? Ornith-1.0이 바꾸는 공식 (github.com)
목차(4)
한줄 요약
MIT 라이선스 오픈소스 코딩 에이전트 Ornith-1.0, 9B 모델로 Qwen3.5-35B를 넘는다.
무엇이 달라지나?
오픈소스 AI 코딩 에이전트 분야에서 의미 있는 이정표가 하나 세워졌다. deepreinforce-ai가 공개한 Ornith-1.0은 Gemma 4와 Qwen 3.5를 베이스로 후처리 학습(post-training)을 거친 모델군으로, 9B-Dense, 31B-Dense, 35B-MoE, 397B-MoE 네 가지 크기를 동시에 내놓았다.
숫자부터 보자. Ornith-1.0-9B는 SWE-bench Verified에서 69.4%를 기록했다. Qwen3.5-9B의 53.2%는 물론, 파라미터 수가 네 배 가까운 Qwen3.5-35B(70.0%)에 근접하는 수치다. Terminal-Bench 2.1에서도 9B 모델이 43.1%로, 31B짜리 Gemma4-31B(42.1%)를 앞질렀다. 덩치보다 훈련 방식이 더 중요하다는 것을 단적으로 보여준다.
397B MoE 버전은 또 다른 차원이다. SWE-bench Verified 82.4%, SWE-bench Pro 62.2%, SWE-bench Multilingual 78.9%를 기록하며 DeepSeek-V4-Pro나 Claude Opus 4.7과 동급 혹은 일부 벤치마크에서 앞서는 수준을 보였다. 완전한 오픈소스 모델로서는 이례적인 성적이다.
기술적으로 주목할 부분은 훈련 방식이다. Ornith-1.0은 강화학습(RL)을 통해 풀이 경로(rollout)만이 아니라, 그 경로를 구동하는 스캐폴드(scaffold) 자체도 함께 최적화한다. 모델이 "어떻게 풀지"를 스스로 개선하는 구조를 갖춘 셈이다. 이 self-improving 프레임워크가 파라미터 대비 성능 효율을 끌어올린 핵심 요인으로 보인다.
라이선스는 MIT다. 지역 제한도 없다. 상용 API에 의존하지 않고 코딩 에이전트를 내부 인프라에 올리려는 팀에게는 실질적인 선택지가 생긴 것이다.
실무에서 어떤 의미인가?
외주 개발이나 사내 개발팀을 운영하는 입장에서 이런 모델의 등장이 가지는 의미는 단순하지 않다.
첫째, 비용 구조가 달라질 수 있다. 9B 모델은 단일 80GB GPU에서 구동된다. llama.cpp나 Ollama를 통한 로컬 추론도 지원한다. API 과금 없이 코딩 에이전트를 팀 내부에서 돌릴 수 있다는 뜻이다. 반복적인 코드 리뷰, 테스트 케이스 생성, 레거시 코드 분석 같은 작업에 붙여놓으면 누적 비용 차이가 크게 날 수 있다.
둘째, SWE-bench Multilingual 결과가 눈에 띈다. Ornith-1.0-9B가 52.0%를 기록한 이 벤치마크는 영어 외 언어 코드베이스를 다루는 능력을 측정한다. 다국어 프로젝트나 한국어 주석이 섞인 레거시 코드를 처리하는 팀에게 실용적인 지표다.
셋째, NL2Repo 벤치마크는 자연어 설명을 기반으로 리포지토리 수준의 코드를 생성하는 능력을 본다. Ornith-1.0-9B는 27.2%로 Qwen3.5-35B(20.5%)를 상회했다. 요구사항 문서나 기획서를 넘기면 코드 구조를 잡아주는 시나리오에서 의미 있는 수치다.
물론 벤치마크 수치가 실제 프로젝트 복잡도를 그대로 반영하지는 않는다. 하지만 오픈소스 진영에서 이 정도 수준의 에이전트가 등장했다는 사실 자체가, AI 도구 도입을 검토하는 개발팀의 선택지를 넓혀준다는 점은 분명하다.
도입 전 체크포인트
Ornith-1.0을 실제로 써보려는 팀이라면 몇 가지를 먼저 확인해야 한다.
런타임 버전: Transformers 5.8.1 이상, vLLM 0.19.1 이상, SGLang 0.5.9 이상이 필요하다. 기존 ML 서빙 스택과의 호환 여부를 먼저 체크해야 한다.
컨텍스트 윈도: 모든 모델이 256K(262,144 토큰) 컨텍스트를 지원한다. 대형 코드베이스나 긴 대화 이력을 처리하는 에이전트 시나리오에서 유리한 조건이다.
추론 방식: Ornith-1.0은 기본적으로 <think>…</think> 블록을 통해 추론 과정을 거친 후 최종 답변을 내놓는 추론 모델이다. 응답 구조와 지연 시간을 감안한 파이프라인 설계가 필요하다.
정밀도 선택: 35B와 397B 모델은 bf16 풀 프리시전 외에 FP8 양자화 버전도 제공한다. GPU VRAM이 제한적인 환경이라면 FP8 버전으로 메모리 부담을 줄일 수 있다.
권장 샘플링 파라미터: 실 서비스 배포에는 temperature=0.6, top_p=0.95, top_k=20이 권장된다. 벤치마크 재현에는 temperature=1.0을 사용해야 공개된 수치와 동일한 조건이 된다.
자주 묻는 질문
Q.Ornith-1.0을 상업적 프로젝트에 바로 사용할 수 있나?
MIT 라이선스로 공개됐기 때문에 상업적 사용이 가능하다. 지역 제한도 없다고 명시돼 있다. 다만 베이스 모델로 사용된 Gemma 4와 Qwen 3.5 각각의 라이선스 조건도 함께 확인하는 것이 안전하다. 실제 프로덕션 도입 전에는 법무 검토를 거치는 편이 좋다.
Q.9B 모델 하나로 실무 코딩 에이전트를 대체할 수 있나?
벤치마크 수치만 보면 가능성은 있다. SWE-bench Verified 69.4%는 오픈소스 9B 모델 기준으로 상당히 높은 수준이다. 하지만 실무 프로젝트는 벤치마크보다 맥락이 복잡하고, 오류 처리·도구 연동·보안 요구사항 등이 추가된다. 단순 반복 작업의 자동화나 코드 리뷰 보조 도구로 먼저 시범 운영하면서 팀 워크플로에 맞는지 검증하는 접근이 현실적이다.
Q.외주 개발 프로젝트에서 이런 AI 코딩 에이전트를 활용하면 어떤 효과를 기대할 수 있나?
반복적인 보일러플레이트 코드 작성, 테스트 케이스 생성, 기존 코드베이스 분석 등에서 개발 속도 향상을 기대할 수 있다. 다만 에이전트가 생성한 코드는 반드시 사람이 검토하는 과정이 필요하고, 프로젝트 특성에 따라 파인튜닝이나 프롬프트 엔지니어링 작업이 추가로 들어갈 수 있다. 외주 개발 팀이 이 도구를 얼마나 잘 통합하느냐가 실제 효율 차이를 만든다.
관련 아티클
관련 사례
이 글의 키워드와 맞닿은 실제 개발 사례를 함께 보세요.