Google Gemini Deep Research API, AI 리서치 자동화의 새 기준이 될 수 있을까 (id.news.hada.io)
목차(4)
한줄 요약
Google Gemini Deep Research API 출시 — AI 리서치 워크플로 전체를 단일 API로 통합 가능해졌다.
Google이 Gemini Deep Research Agent를 API로 공개하면서, 기존에 Google AI Studio 웹 UI에서만 쓸 수 있었던 심층 리서치 기능을 개발자가 직접 애플리케이션에 내재화할 수 있게 됐다. 이번 릴리스의 핵심은 새로운 비동기 인터페이스인 Interactions API다. 단순히 LLM을 호출하는 것이 아니라, AI가 스스로 검색 계획을 세우고, 여러 웹 페이지를 순회하며 비교·합성해 긴 형태의 리포트를 자동으로 생성하는 전 과정이 하나의 API 흐름 안에 담긴다.
무엇이 달라지나?
기존 LLM API와 구조적으로 다르다
기존 generate_content 방식은 요청하면 즉시 응답이 돌아오는 동기 구조다. Deep Research API는 다르다. 작업이 백그라운드에서 수 분간 실행되기 때문에, 요청 후 완료 여부를 주기적으로 확인하는 폴링(polling) 방식이나 스트리밍으로 진행 상황을 수신하는 방식을 써야 한다. API 패턴 자체가 바뀐다는 뜻이다.
두 가지 모델 선택지
사용 목적에 따라 모델을 선택할 수 있다. deep-research-preview-04-2026은 속도와 효율에 초점을 맞춰 클라이언트 UI에 실시간 스트리밍이 필요한 경우에 적합하다. deep-research-max-preview-04-2026은 커버리지를 최대한 확보하는 방향으로, 대규모 컨텍스트 수집과 자동 합성에 강점을 보인다.
주목할 만한 기능들
가장 눈에 띄는 것은 Collaborative Planning이다. AI가 리서치를 바로 실행하는 게 아니라 먼저 계획안을 제시하고, 사용자가 이를 검토·수정한 뒤 승인하면 본격적인 실행이 시작된다. "AI가 작업하되, 방향은 사람이 결정한다"는 설계 철학이 API 레벨에서 구현된 셈이다. 한 가지 주의할 점은 collaborative_planning 플래그를 False로 전환하지 않으면 실제 리포트가 생성되지 않는다는 것이다. "진행해줘"라는 텍스트만 보내는 것으로는 충분하지 않다.
그 외에도 visualization="auto" 옵션으로 차트와 인포그래픽을 자동 생성해 base64 인코딩 이미지로 반환받을 수 있고, 텍스트뿐 아니라 이미지·PDF·오디오 파일도 리서치 컨텍스트로 함께 전달할 수 있는 멀티모달 입력도 지원된다. MCP(Model Context Protocol) 서버 연동을 통해 외부 금융 데이터 같은 서드파티 툴도 에이전트에 붙일 수 있다.
기본 내장 툴로는 Google Search, URL 콘텐츠 읽기, 코드 실행이 제공되며, 파일 검색(업로드된 문서 대상)과 MCP 서버는 옵션으로 추가 가능하다.
실무에서 어떤 의미인가?
별도 에이전트 프레임워크 없이도 "딥 리서치" 기능을 앱에 직접 통합할 수 있다는 점이 가장 큰 실무적 함의다. 지금까지 유사한 기능을 구현하려면 LangChain이나 LlamaIndex 같은 오케스트레이션 프레임워크 위에 검색-요약-합성 파이프라인을 직접 설계해야 했다. 이 API는 그 복잡도를 상당 부분 추상화한다.
공개 웹 검색과 사내 문서 검색을 툴 설정만으로 조합할 수 있다는 점도 흥미롭다. 기업 내부 자료 기반의 리서치 자동화 시나리오가 현실적인 선택지가 된다. 예컨대 업로드된 내부 보고서와 외부 시장 데이터를 동시에 활용해 자동으로 분석 리포트를 뽑아내는 워크플로를 상상해볼 수 있다.
단, 이 접근은 RAG(외부 문서를 검색해 LLM에 제공하는 기법)의 단순 확장이 아니다. 계획 수립부터 멀티스텝 검색, 합성까지의 전 과정이 에이전트 루프 안에서 돌아간다. 그만큼 결과물의 깊이는 깊어지지만, 응답 시간도 수 분 단위로 길어진다.
도입 전 체크포인트
동기 방식 LLM 호출에 익숙한 개발자라면 설계 패턴 전환이 필요하다. 폴링 로직 구현, 실패 상태 처리, 수 분에 달하는 응답 지연을 UX 레벨에서 어떻게 처리할 것인지가 실제 도입 시 핵심 과제가 된다. "리서치 중입니다" 같은 프로그레스 피드백 없이 사용자를 수 분간 대기시키는 것은 현실적으로 어렵다. 스트리밍 모드와 thinking_summaries="auto" 옵션을 조합해 진행 과정을 실시간으로 노출하는 설계를 고려해야 한다.
Collaborative Planning을 활용할 경우 플래그 전환 누락 같은 디테일한 구현 실수가 전혀 다른 결과를 낳을 수 있으므로 API 문서를 꼼꼼히 확인하는 것이 우선이다.
자주 묻는 질문
Q.기존 Gemini API를 쓰고 있는데 Deep Research API로 마이그레이션이 어렵나?
기존 `generate_content` 기반 코드와는 API 구조 자체가 다르다. Interactions API는 비동기 패턴이므로 폴링 또는 스트리밍 처리 로직을 새로 작성해야 한다. 기존 동기 호출 코드를 그대로 가져다 쓸 수는 없고, 작업 생성-상태 확인-결과 수신의 3단계 흐름을 별도로 설계해야 한다. 다만 Python SDK 기준 코드 구조 자체는 비교적 직관적이라 러닝커브가 극단적으로 높지는 않을 것으로 보인다.
Q.Collaborative Planning을 쓸 때 왜 플래그를 반드시 False로 바꿔야 하나?
`collaborative_planning=True` 상태는 계획 수립 단계임을 API에 명시하는 것이다. 이 플래그가 True인 한 에이전트는 계획안을 제시하거나 수정하는 역할만 수행하고, 실제 리서치를 실행하지 않는다. 승인 의사를 텍스트로만 전달해도 플래그가 바뀌지 않으면 API는 여전히 계획 단계로 인식한다. 최종 실행 단계에서 `collaborative_planning=False`로 명시적으로 전환해야만 리포트 생성이 시작된다.
Q.MCP 서버 연동은 어떤 시나리오에서 유용한가?
외부 전문 데이터 소스를 리서치 컨텍스트에 포함시키고 싶을 때 유용하다. 예를 들어 금융 데이터 API를 MCP 서버로 연결하면, 에이전트가 공개 웹 정보와 실시간 금융 데이터를 함께 참조해 분석 리포트를 작성할 수 있다. 기업 내부 데이터베이스나 독점 데이터 소스를 MCP 프로토콜로 감싸서 제공하는 방식도 가능하다. `allowed_tools` 옵션으로 에이전트가 호출할 수 있는 툴을 제한할 수도 있어 보안 측면에서도 관리가 가능하다. 📌 원문: [GeekNews](https://id.news.hada.io/topic?id=28815) 🔗 새로운 기술 도입이나 기술 검토가 필요하다면 → [삼태연구소에 문의하기](/contact)