AI 모델 대격변: 코드·음성·문서 동시 진화
OpenAI는 GPT-4.1·mini·nano 3종을 API로 출시했다. 코딩 벤치마크(SWE-bench)에서 GPT-4o 대비 21.4% 향상됐고, 최대 100만 토큰 컨텍스트 창을 지원해 대형 코드베이스 분석에 강점을 보인다. Google DeepMind는 Gemini 3.1 Flash Live를 공개했는데, 기존 음성 AI가 '듣기→텍스트 변환→응답→음성 합성'을 순차로 처리했던 반면 이 모델은 오디오를 네이티브로 직접 처리해 지연 시간을 대폭 줄였다. 90개 이상의 언어를 지원하고, Verizon·Home Depot 같은 대기업이 고객센터에 이미 테스트 중이다. Meta 연구팀은 '반형식적 추론(semi-formal reasoning)'이라는 구조화 프롬프트 기법을 발표해, 코드 리뷰 정확도를 최대 93%까지 끌어올렸다 — 별도 모델 훈련 없이 프롬프트만으로 달성한 수치다. 금융(JPMorgan AI 도입 확대), 금융·은행 고객응대(Gradient Labs의 GPT-4.1 기반 AI 계좌 매니저), 재난 대응(아시아 지역 OpenAI 워크숍)까지, AI가 실제 산업 현장에 깊숙이 들어오고 있다.
Hugging Face가 TRL(Transformer Reinforcement Learning) v1.0을 공식 출시했다. SFT(지도 미세조정)·DPO·GRPO·리워드 모델링 등 75개 이상의 포스트 트레이닝 기법을 하나의 통일된 API로 제공한다. 가장 큰 변화는 CLI(커맨드라인 인터페이스)의 도입으로, 복잡한 훈련 루프를 직접 짤 필요 없이 모델 경로와 데이터셋 이름만 지정하면 학습이 시작된다. Hugging Face의 Accelerate 라이브러리와 통합돼 있어, 로컬 GPU 1개에서 돌리는 명령어가 그대로 멀티노드 클러스터로 확장된다. DeepSeek R1 학습에 사용된 GRPO 알고리즘도 포함돼 있어, 추론 능력 강화 실험을 소규모 GPU로도 시도할 수 있다.
IBM이 Granite 4.0 3B Vision을 오픈소스(Apache-2.0)로 공개했다. 기업 문서에서 테이블·차트·양식의 핵심 값을 추출하는 데 특화된 비전-언어 모델(VLM)이다. 표 추출(PubTablesV2 92.1점), 차트 요약(Chart2Summary 86.4%)에서 훨씬 큰 모델들을 제치고 최상위 성능을 기록했다. 독특한 구조는 LoRA 어댑터 방식으로, 기반 모델(Granite 4.0 Micro) 위에 비전 기능을 탑재해 멀티모달과 텍스트 전용 요청을 하나의 배포로 동시에 처리한다. IBM의 문서 처리 라이브러리 Docling과 연동되어 PDF·이미지 파이프라인에 바로 붙일 수 있다.
댓글
댓글 쓰기