AI 음성·추론·코딩 도구 3파전
Anthropic의 Claude는 올해 유료 구독자가 두 배 이상 늘며 소비자 시장에서 빠르게 존재감을 키우고 있습니다. 같은 날 Mistral은 ElevenLabs에 필적한다고 주장하는 텍스트-투-스피치 모델 'Voxtral TTS'를 공개했고, 목소리 AI 시장은 2026년 기준 전 세계 220억 달러를 넘어섰습니다. 고객 서비스 플랫폼 Intercom은 자체 모델 Fin Apex 1.0이 GPT와 Claude를 고객 응대 해결율에서 앞선다고 발표했고, OpenAI는 AI 오남용과 에이전트 취약점을 찾아내는 'Safety Bug Bounty' 프로그램을 출범시켰습니다. Google DeepMind는 오디오 AI 'Gemini 3.1 Flash Live'와 음악 생성 모델 'Lyria 3 Pro'를 동시에 선보이며 멀티모달 경쟁을 가속화하고 있습니다.
AI 코딩 에디터 Cursor가 3월 한 달에만 굵직한 업데이트를 세 번 쏟아냈습니다. 3월 25일엔 코드와 빌드 결과물이 외부로 나가지 않는 '셀프호스티드 클라우드 에이전트'를 출시했고, 3월 19일엔 코딩 전용으로 훈련된 자체 모델 'Composer 2'(최대 20만 토큰 지원)를 공개했습니다. 3월 초엔 Slack 메시지나 코드 커밋을 트리거로 에이전트가 자동 실행되는 'Automations' 기능도 더했습니다. 실제 도입 사례로, 일본 핀테크 기업 Money Forward는 1,000명 넘는 직원이 Cursor를 쓰며 개발자 1인당 주 15~20시간, QA 테스트 생성 시간의 70%를 절약했습니다. Fortune 500 기업 절반 이상이 신뢰하는 도구로 성장했으며 월 20달러로 시작할 수 있어 비용 대비 효율이 높습니다.
청화대(Tsinghua)와 Z.ai 연구팀이 만든 IndexCache는 DeepSeek·GLM 계열 모델의 '희소 어텐션(Sparse Attention)' 연산에서 중복 계산을 최대 75% 잘라내는 추론 가속 기법입니다. 쉽게 말하면, 인접한 레이어끼리 거의 같은 '중요 토큰' 집합을 선택한다는 사실을 이용해 대부분의 레이어가 계산 결과를 재활용하게 만드는 방식입니다. 20만 토큰 길이의 문서를 처리할 때 첫 응답 지연(prefill latency)이 19.5초에서 10.7초로 단축되고, 생성 처리량도 1.48배 향상됩니다. 별도 모델 재학습 없이 패치만 적용하면 되므로 이미 vLLM이나 SGLang으로 DeepSeek·GLM 모델을 서빙 중인 팀이라면 오늘 바로 적용할 수 있습니다.
댓글
댓글 쓰기