삼태연구소
SAMTAELABS삼태연구소
트렌드2026년 5월 12일·6분 읽기

AI와 진짜로 '대화'하는 시대 — Interaction Model이 바꾸는 Human-AI 협업의 판 (thinkingmachines.ai)

Interaction ModelHuman-AI 협업실시간 AI멀티모달 AIAI 인터페이스LLM 아키텍처AI 에이전트Thinking Machines Labsfull-duplex AIAI 워크플로
AI와 진짜로 '대화'하는 시대 — Interaction Model이 바꾸는 Human-AI 협업의 판
목차(4)

한줄 요약

턴 기반 AI 인터페이스의 구조적 한계를 극복하는 실시간 멀티모달 협업 모델이 등장했다.

무엇이 달라지나?

Interaction Model은 AI와의 실시간 협업을 가능하게 하는 새로운 모델 아키텍처다. Thinking Machines Labs가 공개한 이 연구 프리뷰는, 기존 AI 모델이 갖는 '턴 기반(turn-based)' 한계를 아키텍처 수준에서 해소하려는 시도다.

기존 LLM 기반 인터페이스는 구조적으로 단방향이다. 사용자가 입력을 완료해야 모델이 처리를 시작하고, 모델이 응답을 완료해야 사용자가 다시 말할 수 있다. 이 순차적 구조는 인간이 실제로 협업하는 방식, 즉 말을 끊고, 끼어들고, 눈빛을 읽고, 동시에 반응하는 방식과 근본적으로 다르다.

Interaction Model은 이 문제를 외부 스캐폴딩(harness)이 아닌 모델 내부에서 해결한다. 핵심 설계는 200ms 단위의 마이크로턴(micro-turn) 기반 연속 스트림이다. 입력과 출력이 동시에 흐르는 구조로, 사용자와 모델이 동시에 말하거나, 모델이 사용자의 발화 중에 끼어들거나, 시각적 단서에 반응하는 것이 가능해진다. 오디오는 dMel 방식으로, 이미지는 40×40 패치 단위로 처리하며, 모든 컴포넌트는 처음부터 함께 학습된다.

아키텍처는 두 레이어로 나뉜다. 인터랙션 모델은 실시간으로 사용자와 지속적으로 교환하며, 깊은 추론이 필요한 작업은 백그라운드 모델에 비동기로 위임한다. 사용자는 백그라운드 처리 중에도 인터랙션 모델과 계속 대화할 수 있으며, 결과는 대화 흐름 안으로 자연스럽게 통합된다. 이 구조 덕분에 추론 모델 수준의 지능과 비추론 모델 수준의 응답 속도를 동시에 제공할 수 있다는 게 개발사 측 설명이다.

기능 면에서는 대화 상태 자동 추적(발화 중/양보/자기수정 여부 등), 음성과 시각 큐에 반응하는 선제적 끼어들기, 실시간 병렬 도구 호출 및 웹 검색, 동시 번역, 경과 시간 인식 등이 포함된다. 특히 VAD(음성 활동 감지) 같은 외부 컴포넌트 없이도 이 모든 기능이 모델 자체 역량으로 처리된다는 점이 기술적으로 의미 있다.

실무에서 어떤 의미인가?

이 변화가 에이전시와 개발팀에 갖는 의미는 단순히 "더 자연스러운 대화"가 아니다.

현재 대부분의 AI 기반 워크플로는 암묵적으로 사람을 루프 밖으로 밀어낸다. 자율 에이전트에 작업을 넘기고 결과를 기다리는 구조는, 요구사항을 처음부터 완벽하게 명세할 수 없는 대부분의 실무 상황과 맞지 않는다. 클라이언트 브리핑, 콘텐츠 기획, 코드 리뷰 등 판단과 피드백이 실시간으로 필요한 작업에서 이 병목은 더욱 두드러진다.

Interaction Model은 사람이 AI 인터페이스에 맞추는 방식이 아니라, AI가 사람의 협업 방식에 맞추는 방향으로 인터페이스의 무게중심을 이동시킨다. 실시간 대화 중 도구를 호출하고 웹을 검색하며 결과를 대화 안으로 엮어내는 능력은, 기존의 챗봇이나 코파일럿과는 질적으로 다른 협업 밀도를 가능하게 한다.

추가로 주목할 부분은 인퍼런스 최적화다. 200ms 단위의 잦은 소형 prefill을 처리하기 위해 기존 LLM 추론 라이브러리를 수정하고, 관련 기능을 SGLang에 오픈소스로 기여했다는 점은 이 기술이 실제 배포를 염두에 두고 설계됐음을 보여준다.

도입 전 체크포인트

아직 연구 프리뷰 단계인 만큼, 프로덕션 적용을 논하기에는 이르다. 하지만 이 방향성을 이해하고 준비하는 팀과 그렇지 않은 팀 사이의 격차는 빠르게 벌어질 수 있다. 현시점에서 점검할 포인트는 다음과 같다.

  • 현재 AI 워크플로에서 사람이 개입해야 하는 구간이 어디인가? 그 구간이 자동화가 아닌 실시간 협업으로 더 잘 해결되는지 검토할 필요가 있다.
  • 멀티모달 입력(오디오, 영상, 화면 공유 등)이 실제 업무에 유용한 맥락이 있는가? 단순 텍스트 기반 워크플로와 멀티모달 실시간 협업이 필요한 워크플로를 구분해 우선순위를 정해야 한다.
  • 백그라운드 모델과 인터랙션 모델의 이중 구조는 인프라 설계에도 영향을 준다. 지연 시간과 컴퓨팅 비용 구조가 기존 LLM API 호출 방식과 다를 수 있음을 감안해야 한다.

"비터 레슨(Bitter Lesson)"이 시사하듯, 외부 컴포넌트로 덧붙인 실시간성은 결국 모델 자체의 범용 역량에 의해 대체될 가능성이 높다. 지금 당장 도입하지 않더라도, 이 흐름이 AI 인터페이스 설계의 기준점을 어디로 옮기고 있는지는 계속 추적할 가치가 있다.

자주 묻는 질문

Q.Interaction Model은 기존 GPT-4o나 Gemini의 음성 모드와 무엇이 다른가?

기존 음성 모드 대부분은 턴 기반 모델 위에 VAD 같은 외부 컴포넌트를 얹어 실시간처럼 보이게 만든 구조다. Interaction Model은 이런 외부 스캐폴딩 없이, 모델 자체가 200ms 마이크로턴 단위로 입출력을 동시에 처리하도록 처음부터 설계됐다. 끼어들기, 동시 발화, 시각 큐 반응 등이 하드코딩된 규칙이 아니라 모델이 학습한 역량으로 처리된다는 점이 핵심 차이다. 모델 크기가 커질수록 상호작용 품질도 함께 향상되는 구조를 갖는다.

Q.이 기술이 실제 서비스에 쓰이려면 얼마나 걸릴까?

현재는 연구 프리뷰 단계로 공개된 상태다. 개발사인 Thinking Machines Labs는 인퍼런스 최적화 결과를 SGLang 오픈소스 프로젝트에 기여하는 등 실제 배포를 고려한 작업을 진행 중인 것으로 보인다. 다만 프로덕션 수준의 안정성과 비용 효율성을 갖추기까지는 추가적인 시간이 필요할 것으로 보인다. 도입 타임라인보다는 이 아키텍처가 업계 표준에 미치는 영향을 먼저 추적하는 것이 현실적이다.

Q.에이전시나 개발팀이 지금 당장 해야 할 준비가 있는가?

직접적인 기술 도입보다는 현재 AI 워크플로에서 병목이 되는 인간 개입 구간을 파악하는 것이 우선이다. 실시간 협업이 자율 에이전트보다 더 적합한 업무 유형을 미리 정의해두면, 이 기술이 성숙해졌을 때 빠르게 적용할 수 있다. 멀티모달 실시간 AI가 기본 인터페이스가 되는 환경에서 어떤 역할과 역량이 팀에 필요한지 지금부터 논의해두는 것이 실질적인 준비다.

새로운 기술 도입, 어디서부터 시작해야 할지 고민이라면

대표 개발자가 직접 소통하고, 설계하고, 구축합니다. 중간 과정 없이 의도 그대로.

관련 아티클

관련 사례

이 글의 키워드와 맞닿은 실제 개발 사례를 함께 보세요.