2026년 상반기 LLM 6개월 총정리: 코딩 에이전트와 로컬 모델의 반란 (simonwillison.net)
목차(4)
한줄 요약
2025년 11월 변곡점 이후, 코딩 에이전트는 '실험용'에서 '일상 도구'로 전환됐다.
2026년 5월, Simon Willison은 PyCon US 2026 라이트닝 토크에서 지난 6개월간의 LLM 변화를 압축해서 발표했다. 핵심은 두 가지다. 코딩 에이전트가 실질적으로 쓸 만한 수준에 도달했고, 개인 하드웨어에서 구동 가능한 오픈 웨이트 모델이 예상을 뛰어넘는 성능을 보이기 시작했다. 이 두 변화는 단순한 모델 업그레이드가 아니라, 개발자의 일하는 방식 자체를 바꾸는 구조적 전환이다.
무엇이 달라지나?
2025년 11월, 업계는 변곡점을 통과했다
11월 한 달 동안 '최고의 모델' 타이틀이 Anthropic, OpenAI, Google 사이에서 다섯 차례나 바뀌었다. Claude Sonnet 4.5에서 시작해 GPT-5.1, Gemini 3, GPT-5.1 Codex Max를 거쳐 Claude Opus 4.5가 왕좌를 가져갔다. 수치보다 중요한 건 이 경쟁의 밀도다. 한 달 안에 다섯 번의 역전이 일어났다는 사실은 프론티어 모델 간 격차가 거의 사라졌다는 신호이기도 하다.
그러나 진짜 뉴스는 모델 순위 경쟁이 아니었다. OpenAI와 Anthropic이 2025년 내내 검증 가능한 보상 기반 강화학습(Reinforcement Learning from Verifiable Rewards)을 코드 품질에 집중 적용한 결과가 11월에 가시화됐다. Codex, Claude Code 같은 에이전트 하네스와 결합한 코딩 에이전트는 "가끔 동작하는 것"에서 "대부분 동작하는 것"으로 품질 임계치를 넘었다. 단순히 더 좋아진 게 아니라, 실수를 고치는 데 시간을 쏟지 않아도 되는 수준이 됐다는 것이다. 이 차이는 개발자의 실제 체감 생산성에서 질적으로 다른 결과를 만든다.
로컬 모델의 부상: 노트북이 경쟁자가 됐다
2026년 4월에는 두 가지 주목할 만한 오픈 웨이트 모델이 등장했다. Google의 Gemma 4 시리즈는 미국 기업이 출시한 오픈 웨이트 모델 중 가장 높은 수준의 역량을 보여줬다. 중국 AI 연구소 GLM이 공개한 GLM-5.1은 754B 파라미터, 1.51TB에 달하는 거대 모델로, 구동 가능한 하드웨어를 갖춘다면 매우 효과적인 성능을 발휘한다고 알려졌다.
더 실용적인 관점에서 주목할 만한 건 Qwen3.6-35B-A3B다. 약 20.9GB 파일 크기로 노트북에서 직접 구동 가능하며, 일부 벤치마크에서 Claude Opus 4.7보다 나은 결과를 보인 것으로 보인다. 클라우드 API에 의존하지 않고 로컬에서 이 수준의 성능을 뽑아낼 수 있다는 사실은, 비용·보안·레이턴시 모든 면에서 개발 전략을 재검토하게 만드는 변수다.
'Claw'라는 새로운 카테고리
2025년 11월 말 첫 커밋을 시작한 개인 AI 어시스턴트 프로젝트 OpenClaw는 불과 3개월 만에 업계의 주목을 받는 프로젝트가 됐다. 이 흐름에서 'Claw'라는 장르 명칭이 생겨났고, Mac Mini를 Claw 구동용으로 구입하는 수요가 실리콘밸리에서 가시적으로 나타났다. 개인 전용 AI 에이전트를 자체 하드웨어에서 상시 운영하는 패턴이 본격적으로 자리잡기 시작한 셈이다.
실무에서 어떤 의미인가?
코딩 에이전트의 품질 임계치 돌파는 개발팀의 역할 분배 방식을 바꾼다. 에이전트가 초안 코드를 작성하고 개발자가 검토·방향 설정을 맡는 구조가 실험이 아닌 기본 워크플로우로 자리잡을 수 있는 조건이 갖춰졌다. 다만 에이전트에 위임할 수 있는 작업의 범위와 한계를 팀 단위로 명확히 정의하지 않으면, 생산성 향상보다 디버깅 부채가 쌓일 위험이 있다.
로컬 모델의 성능 향상은 특히 보안 민감 업무나 비용 최적화가 중요한 환경에서 클라우드 API 의존도를 줄이는 실질적인 선택지가 됐다. 단, 1.51TB급 모델은 일반 개발 환경에서 현실적 선택이 아니며, 20~30GB 수준의 모델이 실용적 균형점이다.
도입 전 체크포인트
코딩 에이전트를 실무에 도입하기 전에 확인해야 할 것들이 있다.
첫째, 에이전트가 접근할 수 있는 코드베이스의 범위를 제한하는 권한 정책이 있는가. 둘째, 에이전트가 생성한 코드에 대한 리뷰 프로세스가 기존 코드 리뷰와 동등한 수준으로 운영되는가. 셋째, 로컬 모델 도입 시 모델 파일의 관리·업데이트 체계가 준비돼 있는가. 이 세 가지 질문에 명확한 답이 없다면, 도입 속도보다 기반 정비가 먼저다.
자주 묻는 질문
Q.코딩 에이전트가 '실무 수준'이 됐다는 기준은 무엇인가?
Simon Willison의 표현을 빌리면, "자주 동작하는 것"에서 "대부분 동작하는 것"으로의 전환이다. 구체적으로는 에이전트가 만들어낸 실수를 수정하는 데 개발자 시간의 대부분을 쓰지 않아도 되는 상태를 의미한다. 이 임계치를 넘었다는 것은 에이전트를 매일 사용하는 도구로 채택할 수 있는 신뢰성이 갖춰졌다는 뜻이다. 다만 이것이 감독 없는 자율 운영을 의미하지는 않는다. 검토 비용이 줄었을 뿐, 검토 자체는 여전히 필요하다.
Q.Gemma 4, GLM-5.1, Qwen3.6 중 실제로 써볼 만한 로컬 모델은 무엇인가?
일반 개발자 환경에서 가장 현실적인 선택은 약 20.9GB로 노트북 구동이 가능한 Qwen3.6-35B-A3B로 보인다. GLM-5.1은 1.51TB에 달하는 파라미터 규모로 성능은 높지만 구동 가능한 하드웨어를 별도로 갖춰야 한다. Gemma 4 시리즈는 미국 기업 출시 오픈 웨이트 모델 중 가장 높은 역량을 보였다고 알려져 있으나, 용도와 환경에 따라 적합한 모델은 달라질 수 있다. 실사용 전 자신의 하드웨어 사양과 목적 용도를 먼저 확인하는 것이 우선이다.
Q.'Claw' 카테고리는 기존 AI 어시스턴트와 무엇이 다른가?
Claw는 클라우드 서비스로 접근하는 것이 아니라 개인 하드웨어에서 상시 구동되는 개인 전용 AI 에이전트를 뜻하는 것으로 보인다. OpenClaw에서 시작된 이 개념은 NanoClaw, ZeroClaw 등 파생 프로젝트로 확산되며 하나의 장르가 됐다. 실리콘밸리에서 Mac Mini 품귀 현상이 나타난 것도 이 흐름과 연결된다. 데이터가 외부 서버로 나가지 않고 로컬에서 처리된다는 점에서 프라이버시 민감 사용자에게 특히 주목받고 있다.
관련 아티클
관련 사례
이 글의 키워드와 맞닿은 실제 개발 사례를 함께 보세요.