Mistral Medium 3.5 등장: 코딩 에이전트가 드디어 클라우드로 올라갔다
Mistral이 128B 밀집 모델 Medium 3.5를 공개하며 코딩 에이전트를 클라우드로 이전했다. SWE-Bench Verified 77.6% 달성, GPU 4장으로 자체 호스팅 가능. IT 에이전시가 주목해야 할 이유를 분석한다.
App Development Outsourcing · Service
Claude · GPT · Gemini 같은 LLM API 통합, RAG 기반 문서 검색 · 챗봇, AI 에이전트 워크플로우 자동화. 모델 학습이 아닌 검증된 API 로 빠르고 안정적으로. 환각 제어와 비용 최적화까지 1인 책임으로 진행합니다.
Coverage
LLM API 통합부터 RAG · 에이전트 · 운영까지. 자체 모델 학습이 아닌 검증된 API 활용으로 빠르고 안정적으로 도입합니다.
Process
무료 상담. 요구사항·LLM 선택·예산·운영 비용 검토
핵심 기능 PoC + 상세 견적서. 월 운영(API) 비용도 함께 산정
프롬프트 · RAG 구조 · 데이터 흐름 · 환각 제어 전략 확정
주간 단위 데모 + 응답 품질 evals
범위 내 버그 대응 · 비용·품질 모니터링. 대규모는 별도 SLA
Domains
Portfolio
민감 데이터를 비식별 합성 데이터로 변환·거래하는 AI 플랫폼의 서비스 기획 및 UX/UI 설계
게이미피케이션과 AI 분석을 결합한 맞춤형 진로 적성 진단 서비스
한국 뷰티 리뷰 데이터를 AI로 연결해 아랍어 사용자에게 전달하는 K-뷰티 커머스 앱
WHO 가이드라인 기반 RAG로 의료 신뢰성을 확보한 임신·육아 AI 챗봇
한 줄 코드로 설치하는 AI 기반 FAQ 자동 응답 위젯 SaaS
웨어러블·스마트 화장실 연동으로 반려묘 건강을 24시간 모니터링하는 IoT 헬스케어 플랫폼
Insights
Mistral이 128B 밀집 모델 Medium 3.5를 공개하며 코딩 에이전트를 클라우드로 이전했다. SWE-Bench Verified 77.6% 달성, GPU 4장으로 자체 호스팅 가능. IT 에이전시가 주목해야 할 이유를 분석한다.
AI 에이전트 외주 개발의 완성도는 어떤 모델을 쓰느냐가 아니라, 실행 루프·역할 분리·도구 권한·상태 관리를 어떻게 설계하느냐에서 결정된다.
AI 에이전트 기반 서비스 개발에서 성패를 가르는 건 모델 성능이 아니라 맥락 설계다. IT 개발 에이전시 관점에서 페르소나 구조, 메모리 시스템, 비용 리스크를 어떻게 다뤄야 하는지 정리했다.
Thinking Machines Labs가 공개한 'Interaction Model'은 AI와의 협업 방식을 턴 기반에서 실시간 멀티모달 연속 스트림으로 전환한다. 에이전시와 개발팀이 주목해야 할 구조적 변화를 분석한다.
AI가 개발 생산성을 높여준 시대, IT 에이전시의 진짜 경쟁력은 '얼마나 빠르게 만드느냐'가 아니라 '무엇을 어떻게 통제하느냐'로 이동하고 있다.
AI 코딩 에이전트가 개발 속도를 높여도 외주 개발 에이전시의 병목은 사라지지 않는다. 진짜 병목은 코드가 아니라 스펙 정의, 컨텍스트 관리, 조직 일관성에 있다.
FAQ
PoC 수준의 단순 챗봇은 500만 원대부터, 사내 RAG·자동화 파이프라인 같은 중규모 프로젝트는 1500~3000만 원, 다중 에이전트·운영 대시보드·기존 시스템 통합 같은 대규모는 3000만 원 이상이 일반적입니다. 정확한 견적은 상담 후 PoC 와 함께 1주 이내 전달드립니다.
용도와 비용 우선순위에 따라 다릅니다. 긴 문서·복잡한 추론 = Claude, 범용·이미지·음성 = GPT (OpenAI), 한국어·구글 생태계 통합 = Gemini 가 일반적으로 강점입니다. 모델 단계화(Haiku → Sonnet · GPT-4o-mini → 4o)로 비용을 30~70% 줄이는 설계도 함께 제안드립니다.
대부분의 비즈니스 요구는 LLM API + RAG 로 해결됩니다. 자체 모델 학습(파인튜닝·딥러닝)은 비용·시간·전문성 부담이 크고, 학습 후에도 데이터 갱신이 어렵습니다. 자체 모델이 꼭 필요한 영역은 별도 ML 전문 외주가 적합합니다. 삼태연구소는 검증된 API + RAG 영역만 다룹니다.
여러 단계로 막습니다. (1) RAG 로 사실 근거 제공 (2) 출처 인용 강제 (3) 별도 LLM 으로 팩트체크 게이트 (4) 자기검증 (CoT-SC) (5) 응답 품질 evals 운영. 의료 RAG 챗봇처럼 정확성이 중요한 영역도 다뤄왔습니다.
여러 옵션이 있습니다. (1) Anthropic · OpenAI 의 Enterprise · Zero Data Retention 계약 (2) AWS Bedrock · Azure OpenAI 같은 클라우드 격리 환경 (3) 민감 정보 마스킹 후 API 전송 (4) 사내 네트워크 격리 (VPC). 컴플라이언스 요구사항에 맞춰 설계합니다.
용도와 트래픽에 따라 크게 다릅니다. 사내 챗봇(소규모) 5~30만 원, 고객 응대 챗봇(중규모) 30~200만 원, RAG 기반 문서 검색(대규모) 100~500만 원이 일반적입니다. 프롬프트 캐싱·모델 단계화·배치 API 로 30~70% 절감 가능하며, 비용 모니터링 대시보드를 함께 구축합니다.
네. 슬랙 · 노션 · CRM (세일즈포스·허브스팟·자체 구축) · ERP · 사내 위키 · 구글 드라이브 등 외부 시스템과의 연동을 다수 다뤘습니다. MCP (Model Context Protocol) 표준으로 안전하게 연결합니다.
챗봇은 "응답 생성", 에이전트는 "행동 실행"입니다. 에이전트는 도구(tool use·function calling)로 실제 작업을 수행합니다 — 데이터 조회, 일정 등록, 이메일 발송, 코드 작성·실행 등. 자체 블로그 파이프라인도 수집·스코어링·생성·팩트체크·게재까지 전 과정 에이전트화한 사례입니다.
권장 드리는 방식입니다. 1~2주 PoC 로 핵심 기능 검증 → 비용·품질·운영 부담 확인 → 본 개발 결정. PoC 단계에서 LLM 선택·RAG 효과·환각 정도까지 함께 측정해서 의사결정 근거를 만들어드립니다.
6개월 무상 하자보증 + 운영 매뉴얼 + 비용 가이드 + 운영 대시보드를 인수인계합니다. 신규 모델 출시 시 마이그레이션, 응답 품질 저하 모니터링, 데이터 갱신 자동화 등 장기 유지보수도 별도 계약으로 진행 가능합니다.
12년차 대표 개발자가 24시간 이내 직접 회신합니다. Claude · GPT · RAG · 에이전트 · 환각 제어 · 비용 최적화. 의도 그대로.