마이크로소프트는 방금 화면 캡처만으로 컴퓨터를 사람처럼 사용할 수 있는 최초의 소형 AI 에이전트 모델인 Fara-7B,를 발표했습니다.
대규모 클라우드 인프라에 의존하는 복잡한 에이전트 시스템과 달리 입자 Fara-7B는 입자 지연을 줄이고 프라이버시를 높이며 완전히 새로운 PC 상호 작용 방식을 여는 입자 장치에서 직접 실행되도록 설계되었습니다.
Fara-7B는 마이크로소프트가 작년부터 추구해 온 소규모 언어 모델(SLM) 그룹에 속하며 윈도우 11에 통합된 아프리카 라인을 잇고 있습니다.
그러나, Fara 7B는 컴퓨터 유틸리티 에이전트(CUA): 컴퓨터 인터페이스를 이해하고 스크린샷을 분석하고 클릭베이스 텍스트 입력 또는 웹 탐색과 같은 실제 작업을 수행할 수 있는 모델로 구축되었을 때보다 더 중요한 진전입니다.
덕분에 사용자는 수동 개입 없이 일반적인 대량 작업 처리 모델을 맡길 수 있습니다.
Fara-7B의 특징은 단순함입니다. 오늘날 대부분의 CUA 모델은 화면 분석을 위해서만 거대한 클라우드 서버 세트 많은 하위 시스템 및 거대한 컴퓨팅 성능이 필요합니다.
마이크로소프트는 Fara-7B가 복잡한 보조 모델이나 파이프라인에 의존하지 않지만 여전히 대규모 AI 에이전트와 동등한 성능을 달성하는 단일 모델일 뿐이라고 밝혔습니다.
70억 개의 눈 매개변수 크기로 모델은 개인 눈 PC에서 바로 실행할 수 있으며 동시에 사용자 데이터를 클라우드로 전송할 필요가 없습니다.
Fara-7B,를 교육하기 위해 Microsoft는 AI 에이전트가 70 000개 이상의 실제 도메인에서 인간 행동을 시뮬레이션하는 FaraGen, 종합 데이터 시스템을 구축했습니다.
각 작업 세션은 브라우지 테스트 브라우지 롤 브라우지 검색 버그 처리와 같은 여러 단계로 구성되며 세 가지 독립적인 AI 모델이 브라우지를 평가하여 합리성을 보장합니다.
여과 과정 후 모델을 훈련하기 위해 125 000회 이상의 세션과 100만 개 이상의 동작이 유지됩니다.
실제 성능을 보면 Fara-7B는 작업당 약 124 000개의 입력 토큰과 1 100개의 출력 토큰을 소비합니다.
모델의 벤치마크 점수도 인상적입니다. 웹 보이저 브릿지의 7가지 포인트 온라인마인드의 34가지 포인트 딥샵의 2가지 웹 브릿지 포인트 웹테일벤치 브릿지의 38가지 포인트는 구직이나 부동산 검색과 같은 실제 임무에 중점을 둡니다.
Fara-7B는 MIT 라이선스에 따라 Microsoft Foundry 및 Hugging Face에서 사용할 수 있습니다. Microsoft는 또한 커뮤니티에서 직접 테스트할 수 있도록 Windows 11을 실행하는 PC용 최적의 양자화 버전인 Copilot+를 출시했습니다.
개방성과 로컬 실행 기능을 갖춘 Fara-7B는 일상적인 작업을 자동화하는 AI 에이전트 개발의 물결을 촉진하는 플랫폼이 될 것으로 기대됩니다.