마이크로소프트는 MAI-Transcribe-1, MAI-Voice-1 및 MAI-Image-2의 세 가지 새로운 인공 지능 플랫폼 모델을 발표하여 자체 다중 모드 AI 생태계를 구축하려는 야망에서 중요한 진전을 이루었습니다.
이것은 2025년 말에 설립된 CEO 무스타파 술레이만이 이끄는 인공 지능 연구 부서인 마이크로소프트 AI의 제품입니다.
이러한 모델 출시는 마이크로소프트가 파트너에 대한 의존도를 점진적으로 줄이고 OpenAI나 구글과 같은 대기업과 직접 경쟁하고 있음을 보여줍니다.
그중 MAI-Transcribe-1은 음성을 텍스트로 변환하는 모델로, 최대 25개 언어를 지원하며 현재 Azure Fast 서비스보다 2.5배 빠른 것으로 알려져 있습니다.
MAI-Voice-1은 사운드 생성에 중점을 두고 있으며, 단 1초 만에 60초 음성을 생성할 수 있고 사용자 요구에 따라 음성을 사용자 정의할 수 있습니다.
주목할 만한 점은 MAI-Image-2가 이미지에만 국한되지 않고 비디오 생성을 지원하고 콘텐츠 제작에서 AI의 응용 가능성을 확장한다는 것입니다.
이 모델은 마이크로소프트의 새로운 모델 테스트 플랫폼인 MAI Playground에서 3월 19일부터 테스트되었으며, 이후 마이크로소프트 파운드리 생태계에 도입되었습니다.
현재 세 모델 모두 Microsoft Foundry에 있으며 음성 관련 모델도 테스트 및 개발을 위해 MAI Playground에 통합되었습니다.
Microsoft AI의 CEO인 Mustafa Suleyman에 따르면 Microsoft AI의 개발 철학은 인간을 중심으로 하는 것입니다.
모델은 기술 성능에만 집중하는 대신 인간이 실제 소통하는 방식에 따라 최적화되도록 설계되었습니다. 그는 또한 더 많은 새로운 모델이 곧 발표되어 마이크로소프트 제품에 직접 통합될 것이라고 덧붙였습니다.
또 다른 주목할 만한 점은 가격 전략입니다. 마이크로소프트는 MAI 모델이 많은 경쟁사보다 가격이 낮다고 밝혔습니다. 구체적으로 MAI-Transcribe-1은 시간당 0.36달러부터, MAI-Voice-1은 백만 문자당 22달러부터, MAI-Image-2는 백만 텍스트 입력 토큰당 5달러부터, 이미지 출력 33달러부터 시작합니다.
점점 더 경쟁이 치열해지는 대규모 언어 모델 시장에서 비용 요소는 기업과 개발자를 유치하는 데 중요한 이점으로 간주됩니다.
자체 모델 개발을 추진하고 있지만, 마이크로소프트는 여전히 OpenAI와 긴밀히 협력할 것이라고 밝혔습니다. 회사는 이 파트너에게 130억 달러 이상을 투자했으며, 많은 AI 기술을 제품 생태계에 통합했습니다.
그러나 최근 협력 계약의 조정은 마이크로소프트가 "슈퍼 지능"에 대한 연구를 추구할 수 있는 더 큰 공간을 열었습니다. 이는 회사가 협력과 기술 자율성을 동시에 추구하는 병행 전략을 추구하고 있음을 보여줍니다.