CH.01 LLM·모델
GPT-5.5
Gemini 3.5
2026.05 W3
5월 3주차, 세 개의 신호가 거의 동시에 들어왔다. OpenAI는 GPT-5.5 라인업과 음성 특화 모델을 쏘아 올렸고, 구글은 I/O 2026에서 Gemini 3.5 계열 전체를 공개했다. 어떤 모델을 쓰느냐보다, 각 모델이 어떤 포지션을 가져가는지가 이번 주 핵심이었다.
GPT-5.5 Instant — 환각 52.5% 감소, 고위험 영역부터 달라졌다
2026년 5월 6일, OpenAI가 GPT-5.5 Instant를 출시했다. 의료·법률·금융처럼 고위험 도메인에서 환각성 주장이 기존 대비 52.5% 줄었고, 복잡한 대화의 부정확한 진술도 37.3% 감소했다고 밝혔다. 같은 날 GPT-5.5 Thinking, GPT-5.5 Pro도 함께 공개됐다.
법무·의무 검토 업무에서 환각 오답 빈도가 체감상 줄어드는지 직접 비교해볼 만하다.
리포트 초안이나 팩트 체크 용도로 GPT-5.5를 써보면 이전 버전과 답변 신뢰도 차이를 느낄 수 있다.
전문 콘텐츠 작성 시 잘못된 정보 삽입 위험이 낮아졌다. 마감 전 검수 횟수를 줄일 수 있다.
GPT-Realtime-2 — GPT-5급 추론이 목소리로 나온다
2026년 5월 7일, OpenAI가 Realtime API를 통해 신규 음성 모델 3종을 동시 공개했다. GPT-Realtime-2는 GPT-5급 추론 능력을 음성 레이어에 직접 심은 최초의 모델이다. 텍스트-투-스피치 변환을 넘어서, 실시간 대화 중에도 추론이 일어난다는 점이 이전 세대와의 결정적 차이다.
고객 응대 봇이나 음성 기반 인터페이스 개발 계획이 있다면, 추론 품질이 이전 세대와 다른지 테스트해볼 타이밍이다.
영어 회화 연습 앱이나 어학 학습 도구에서 더 자연스러운 AI 대화 상대가 등장할 예정이다.
팟캐스트 더빙, 영상 나레이션 자동화에서 활용 범위가 현실적으로 넓어진다.
구글 I/O 2026 — Gemini 3.5 Flash + Omni, 두 파도가 동시에 왔다
구글은 2026년 5월 19일 I/O 2026에서 Gemini 3.5 Flash와 Gemini Omni를 함께 공개했다. 3.5 Flash는 에이전트·코딩 특화 모델로 장기적이고 복잡한 작업 처리에 초점을 맞췄다. Gemini Omni는 이미지·오디오·영상·텍스트를 통합 처리하고 고품질 영상까지 직접 생성하는 멀티모달 모델이다.
긴 문서 분석과 영상 콘텐츠를 동시에 처리해야 하는 업무라면 Gemini Omni의 멀티모달 능력이 실용적이다.
YouTube 강의 영상을 직접 입력해 요약·질문·복습 자료를 한번에 만들 수 있게 된다.
영상 피드백, 썸네일 생성, 대본 작성을 하나의 모델로 처리하는 워크플로우 설계가 가능해진다.
GPT-5.5가 환각을 절반으로 줄이고, Gemini 3.5가 멀티모달을 장착했다. LLM 전선은 한 주에 세 곳이 동시에 움직였다.