삼태연구소
SAMTAELABS삼태연구소
가이드2026년 6월 6일·7분 읽기

개발 외주를 맡기기 전에 알아야 할 LLM의 5가지 한계

외주 개발앱 개발 외주웹 개발 외주개발 외주AI 개발LLMRAG챗봇 개발앱 개발 업체개발 외주 의뢰
개발 외주를 맡기기 전에 알아야 할 LLM의 5가지 한계
목차(7)

한줄 요약

AI 기능 개발을 외주로 맡기기 전, LLM의 구조적 한계를 모르면 돈도 시간도 낭비된다.

앱 개발 외주나 웹 개발 외주를 진행할 때 "AI 기능 넣어주세요"라는 요청이 부쩍 늘었다. 그런데 막상 개발이 끝나고 나서야 "왜 우리 회사 정책은 모르죠?", "왜 답이 매번 다르죠?", "왜 이렇게 비용이 많이 나오죠?" 같은 질문이 쏟아진다. 이런 문제 대부분은 LLM을 어떻게 써야 하는지에 대한 기본 이해가 없을 때 발생한다. 개발사가 설명해야 할 책임도 있지만, 의뢰하는 쪽도 최소한의 판단 기준은 갖고 있어야 한다.

AI 기능 개발 전에 왜 LLM 구조를 알아야 하나

LLM은 다음에 올 단어를 확률적으로 예측하는 방식으로 동작한다. 마법처럼 "이해하고" 대답하는 게 아니다. 이 차이를 모르면, 외주 개발사와 대화할 때 요구사항 자체가 틀리게 된다. "AI가 우리 고객 데이터를 학습해서 맞춤 답변을 주면 되잖아요"라는 식의 요청이 대표적이다. 이건 기술적으로 전혀 다른 이야기다.

토큰 단위 과금 — 한국어 서비스는 예상보다 비싸다

LLM은 문장을 통째로 처리하지 않는다. 의미 단위보다 작게 쪼갠 "토큰"이라는 단위로 처리하고, 비용도 이 단위로 청구된다. 문제는 한국어가 영어에 비해 같은 내용을 표현하는 데 토큰을 더 많이 소비한다는 점이다. 단순하게 말하면, 같은 기능을 만들어도 한국어 서비스가 영어 서비스보다 API 비용이 더 나온다.

앱 개발 외주를 의뢰할 때 "GPT 붙이면 얼마예요?"라고 물었을 때, 개발사가 글로벌 사례 기준으로 견적을 내면 실제 운영비와 차이가 날 수 있다. 한국어 기반 서비스인지, 대화 길이가 얼마나 되는지에 따라 월 운영비가 몇 배씩 달라진다는 점을 초반 기획 단계에서 짚어야 한다.

컨텍스트 한계 — AI는 대화를 "기억"하지 않는다

LLM에는 장기 기억이 없다. 대화 창 안에서 주고받은 내용만 참고할 수 있고, 그 범위를 넘어가면 앞서 한 이야기는 없는 것처럼 처리된다. "저번에 말씀드렸던 건데요"가 AI에게 통하지 않는 이유다.

그러면 "우리 앱은 사용자 이력을 기반으로 맞춤 상담을 해줬으면 해요"라는 요구사항은 어떻게 구현하나. AI가 알아서 기억하는 게 아니라, 사용자 정보를 데이터베이스에 저장해 두고 매 대화마다 AI에게 "이 사람은 이런 이력을 가진 고객입니다"라고 전달하는 구조를 따로 설계해야 한다. 이게 빠진 채로 개발이 진행되면, 완성된 제품이 사용자 이력을 전혀 반영하지 못한다.

RAG 없이 회사 정보를 아는 AI는 없다

LLM은 인터넷에 공개된 정보로 학습한 모델이다. 우리 회사 서비스 약관, 환불 정책, 내부 매뉴얼 같은 내용은 모른다. 그런데도 그냥 GPT를 붙이면, AI는 "일반적으로 이런 경우엔 이렇습니다"라는 식으로 그럴듯한 답을 만들어낸다. 사용자는 그게 회사 공식 답변인 줄 안다. 이게 AI 챗봇 관련 분쟁의 상당수를 만드는 구조다.

이 문제를 해결하는 방법이 RAG(검색 증강 생성)다. 사용자가 질문하면 회사 문서에서 관련 내용을 먼저 검색하고, 그 내용을 AI에게 건네주면서 "이 자료를 기반으로 답해줘"라고 지시하는 방식이다. 고객 응대 챗봇, 내부 문서 검색, FAQ 자동 응답 — 이런 기능을 개발한다면 RAG 구조가 필요한지를 반드시 짚어야 한다. 개발 외주 의뢰 시 "RAG는 들어가나요?"라고 물어보는 것 자체가 의미 있는 기준점이 된다.

Temperature와 일관성 — 용도에 따라 설정이 달라야 한다

AI가 매번 다른 답을 내놓는 건 버그가 아니다. Temperature라는 설정값으로 조절 가능한, 의도된 확률적 특성이다. 값을 낮추면 답이 일관되고 예측 가능해지고, 높이면 다양하고 창의적인 결과가 나온다.

고객 상담 챗봇처럼 같은 질문에 항상 같은 수준의 답이 나와야 하는 기능과, 마케팅 문구를 여러 개 생성하는 기능은 설정이 달라야 한다. 이걸 기본값으로 두고 개발하면 결과물의 품질이 용도에 맞지 않을 수 있다. 어떤 기능을 만드는지에 따라 이 설정을 명시적으로 요구사항에 담아야 한다.

에이전트 — AI가 직접 행동하면 책임 설계도 달라진다

최근 외주 개발 요청 중 눈에 띄게 늘어난 것이 "AI가 직접 뭔가를 해줬으면 해요"라는 형태다. 메일을 쓰는 게 아니라 직접 보내거나, 일정을 제안하는 게 아니라 직접 등록하거나. 이런 구조를 에이전트라고 부른다. LLM에게 외부 시스템을 직접 건드릴 수 있는 권한을 주는 방식이다.

기능이 강력해지는 만큼 책임 설계도 함께 커진다. AI가 실수로 잘못된 주문을 처리하거나, 삭제하면 안 되는 데이터를 지운다면 어떻게 되나. 사람이 개입하는 확인 단계를 어디에 둘 것인지, 되돌릴 수 없는 행동에는 어떤 제한을 걸 것인지 — 이런 설계가 기획 단계에서 빠지면 나중에 사고로 이어진다. 에이전트 기반 기능을 포함한 개발 외주를 진행할 때는 "오작동 시 어떻게 되는가"를 반드시 사전에 정의해야 한다.

자주 묻는 질문

Q.AI 챗봇을 외주로 개발할 때 RAG를 꼭 넣어야 하나요?

회사 고유의 정보(서비스 정책, 매뉴얼, 상품 안내 등)를 기반으로 답해야 하는 챗봇이라면 RAG는 선택이 아니라 필수다. RAG 없이 LLM만 쓰면, AI는 학습된 일반 정보로 그럴듯한 답을 만들어낼 뿐 실제 회사 정책을 반영하지 못한다. 고객이 이 답을 공식 안내로 믿고 행동했을 때 문제가 생길 수 있다. 챗봇 기획 단계에서 "어떤 문서를 기반으로 답할 것인가"를 먼저 정의하고, RAG 구조 포함 여부를 견적 항목으로 명시하는 게 맞다.

Q.한국어 AI 서비스는 영어 기반보다 API 비용이 실제로 더 나오나요?

그렇다. LLM은 토큰 단위로 텍스트를 처리하고 비용도 토큰 단위로 청구되는데, 한국어는 같은 의미를 전달하는 데 영어보다 더 많은 토큰이 필요한 구조를 가진다. 따라서 동일한 대화량이라도 한국어 서비스가 더 높은 API 비용을 발생시킨다. 외주 개발 초기 단계에서 예상 대화 건수와 평균 대화 길이를 기반으로 한국어 환경에 맞는 비용 추정을 별도로 해야 한다. 글로벌 사례 기반 견적을 그대로 쓰면 실제 운영 단계에서 예산이 부족해질 수 있다.

Q.AI 에이전트가 오작동했을 때 책임은 누구에게 있나요?

현재 법적으로 명확히 정리된 기준은 없지만, 실질적으로는 서비스를 제공한 회사가 책임을 지는 구조로 귀결되는 경우가 많다. 그래서 에이전트 기능을 개발할 때는 "AI가 직접 처리할 수 있는 행동의 범위"를 초기에 명확히 제한하고, 금전 처리나 데이터 삭제 같은 되돌리기 어려운 행동 앞에는 반드시 사람의 확인 단계를 두는 구조를 설계해야 한다. 이 부분이 기획 단계에서 빠지면 개발 후 기능 수정 비용이 크게 늘어난다.

직접 따라하기 어려우면, 대표 개발자가 1:1로 진행해드립니다

누적 매출 20억 / 1인 에이전시. 중간 과정 없이 의도 그대로.

관련 아티클

관련 사례

이 글의 키워드와 맞닿은 실제 개발 사례를 함께 보세요.