마이크로소프트는 기존 텍스트 처리 범위를 벗어난 일련의 새로운 모델을 도입하면서 인공 지능 분야에서 야망을 강화하고 있습니다.
이러한 움직임은 미국 기술 회사가 음성, 음역 및 영상을 포함한 다중 모드 AI 개발로 방향을 전환하고 있음을 보여줍니다.
구체적으로 Microsoft는 음성 및 텍스트를 텍스트로 변환하는 데 사용되는 두 가지 완전히 새로운 모델을 포함하여 세 가지 새로운 모델을 발표했습니다.
회사가 이 작업을 위한 전문 도구를 출시한 것은 이번이 처음입니다. 음성 변환 모델은 비디오 자막 만들기, 회의 기록 또는 음성 비서 지원과 같은 응용 프로그램을 목표로 25개 언어로 음성을 텍스트로 변환할 수 있습니다.
이와 함께 음성 모델을 통해 최대 60초 길이의 오디오 클립을 생성하여 자동 오디오 콘텐츠 제작 기능을 확장할 수 있습니다.
이는 기업과 콘텐츠 제작자가 시간과 생산 비용을 크게 절약하는 데 도움이 됩니다.
이미지 부문에서 마이크로소프트는 더 빠른 생성 속도와 눈에 띄게 개선된 이미지 품질을 갖춘 자체 개발 모델의 2세대를 소개합니다.
이 모델은 현재 Microsoft Foundry 및 MAI Playground와 같은 개발 플랫폼에서 사용할 수 있으며 Bing 또는 PowerPoint와 같은 인기 있는 제품에 곧 통합될 것으로 예상됩니다.
이러한 업그레이드는 Microsoft의 AI 생태계를 확장하기 위한 전략적 단계입니다. 이전에는 Microsoft Copilot와 같은 언어 모델 및 도구에 주로 집중했습니다. Microsoft Copilot는 특히 Microsoft 365 및 Azure 클라우드 플랫폼 사용자에게 기업 환경에서 인기 있는 AI 비서 중 하나입니다.
비문자형 모델을 추가하면 Microsoft는 기업에 보다 포괄적인 솔루션을 제공할 때 경쟁 우위를 확보하는 데 도움이 됩니다.
Copilot Cowork 또는 Copilot Health와 같은 제품도 기술 테스트에 그치지 않고 실제 작업 상황에 AI를 도입하려는 회사의 명확한 방향을 보여줍니다.
주목할 만한 점은 이 전략이 AI 경쟁이 점점 더 치열해지는 상황에서 진행된다는 것입니다. OpenAI는 최근 일부 프로젝트를 축소하여 핵심 제품에 집중하는 반면 Google은 Veo 3.1 Lite와 같은 생성 모델에 대한 비용과 에너지 최적화를 추구하고 있습니다.
한편, 마이크로소프트는 음성 처리 또는 이미지 생성과 같이 막대한 자원이 필요한 분야에 투자하기 위해 재정 및 인프라의 이점을 활용합니다. 이것들은 다중 모드 AI 생태계를 완성하는 데 도움이 되는 중요한 조각들입니다.
2026년 AI 산업은 역량 과시 단계에서 실제 가치 증명 단계로 전환하고 있습니다.
일련의 새로운 모델을 통해 마이크로소프트는 기술 경쟁뿐만 아니라 특히 효율성과 안정성이 최우선인 기업 환경에서 응용 가능성에 집중하고 있음을 보여줍니다.