음성AI 전쟁·Cursor 진화·오픈 ASR 혁신
구글이 최신 음성·오디오 모델 Gemini 3.1 Flash Live를 출시하며, 이를 기반으로 Search Live와 Gemini Live를 200개국 이상에 전면 개방했다. 이 모델은 기존의 '녹음→변환→생성→합성' 다단계 처리 방식을 하나의 네이티브 오디오 처리 흐름으로 압축해 응답 지연을 대폭 줄였다. 소음이 많은 실외 환경에서도 목소리 톤과 리듬을 구분해내며, 고객센터·음성 에이전트 구축에 필요한 복잡한 멀티스텝 명령 수행률도 크게 향상됐다. 개발자는 Google AI Studio의 Gemini Live API를 통해 미리보기(preview)로 이용할 수 있고, 기업용 고객 경험 플랫폼에도 탑재됐다. 생성된 모든 오디오에는 SynthID 워터마크가 삽입되어 AI 생성 여부를 식별할 수 있다.
Cursor가 3월 25일 '셀프호스티드 클라우드 에이전트'를 정식 지원하면서, 코드·빌드 결과물·시크릿 키를 모두 자체 인프라 안에 두면서도 클라우드 수준의 병렬 에이전트 실행이 가능해졌다. 격리된 가상머신(VM), 완전한 개발 환경, 멀티모델 하네스, 플러그인까지 기존 클라우드 에이전트와 동일한 기능을 사내망에서 쓸 수 있다는 점이 핵심이다. 같은 달 Composer 2도 출시되어 까다로운 코딩 태스크에서 최전선 수준의 성능을 발휘한다. 실제 기업 사례로, 핀테크 기업 Money Forward의 엔지니어들은 Cursor 도입 후 주당 15~20시간을 절감했고, QA팀은 테스트 생성 시간을 70% 줄였다고 보고했다. Atlassian, GitLab, Hugging Face 등 30개 이상 파트너 플러그인도 새로 추가되어 기존 스택과 연동 폭이 넓어졌다.
Cohere가 20억 파라미터(2B) 오픈소스 자동음성인식(ASR, 음성→텍스트 변환) 모델 'Transcribe'를 Apache 2.0 라이선스로 공개했다. 영어를 포함한 14개 언어를 지원하며, Hugging Face Open ASR 리더보드에서 평균 단어오류율(WER) 5.42%로 1위를 기록, 기존 강자인 OpenAI Whisper Large v3(7.44%)와 ElevenLabs Scribe v2(5.83%)를 모두 앞섰다. 같은 파라미터 규모의 다른 전용 ASR 모델보다 실시간 처리 속도가 최대 3배 빠르다는 점이 실제 서비스 투입의 문턱을 낮춘다. 기업 입장에서는 데이터를 외부 API로 보내지 않고 자체 GPU 서버에서 돌릴 수 있어 데이터 보안 문제를 해결한다. 다만 독일어·스페인어·포르투갈어 등 3개 언어에서는 경쟁 모델보다 낮은 성능을 보여, 다국어 서비스 전에는 언어별 검증이 필요하다.
댓글
댓글 쓰기