Google은 실제 사람처럼 웹 인터페이스와 직접 상호 작용하도록 설계된 새로운 AI 모델인 Gemini 2.5 컴퓨터 Use,를 방금 소개했습니다.
Gemini 2.5 Pro, 플랫폼에서 지원되는 이 기술은 Google에서 자체 개발한 가상 브라우저를 통해 브라우저 브라우저를 탐색하고 브라우저 양식을 작성하고 브라우저 페이지를 스크롤하고 브라우저를 클릭하고 데이터를 입력하고 브라우저 키 조합을 사용할 수 있습니다.
블로그에 공식적으로 게시된 내용에 따르면 Gemini 2.5 컴퓨터 사용은 Google AI Studio 및 Vertex AI를 통해 개발자에게 제공되었습니다.
모델의 목표는 AI가 기존 계정 등록 데이터 정렬 또는 소프트웨어 테스트와 같은 자연어 가이드를 기반으로 인터넷에서 복잡한 실제 작업을 수행할 수 있도록 하는 것입니다.
Google은 이 모델이 웹 및 모바일 장치에 대한 많은 표준 테스트에서 경쟁사보다 지연 시간이 짧고 성능이 우수하다고 밝혔습니다.
입시 삽화 비디오에서 Gemini 2.5 컴퓨터 사용은 AI가 입시 웹사이트에 액세스하고 입시 콘텐츠를 읽고 사용자 요청에 따라 정보를 정렬할 수 있는 것과 같은 유연한 처리 능력을 보여줍니다. 예를 들어 메모를 웹 애플리케이션의 올바른 위치로 드래그하는 것입니다.
Google은 이러한 작업이 자동 인터페이스 탐색 기술의 발전을 입증하면서 이전보다 3배 더 가속화되었다고 말했습니다.
현재 Culinary Gemini 2.5 Computer Use는 주로 브라우저 수준에서 13가지 유형의 Culinary 동작만 지원하며 데스크톱 컴퓨터 운영 체제 수준에서는 직접 조작할 수 없습니다.
그럼에도 불구하고 구글은 내부 기술 그룹이 사용자 인터페이스 테스트(UI):에 이 모델을 적용하여 소프트웨어 개발 시간을 크게 단축했다고 주장합니다.
이 새로운 기술은 Google 검색 컨버터의 AI 모드 Firebase 테스트 컨버터 및 Mariner 프로젝트(사용자가 자연어로 통신하는 데 도움이 되는 AI 플랫폼)와 같은 일부 내부 제품 및 프로젝트에도 통합되어 컨버터를 지정하고 컨버터블 계획 연구 또는 데이터 입력과 같은 작업을 자동으로 수행합니다.
Gemini 2.5 Computer Use,를 통해 Google은 AI가 웹에서 직접 정보를 입력하고 처리할 수 있는 진정한 디지털 사용자가 되도록 하는 데 한 걸음 더 나아가고 있습니다. Dua ra tuong lai noi duoc tu dong hoa hoan toan bang tri tue nhan tao.