
주목받는 솔루션은 AI 에이전트가 강화 학습(RL)이라고 하는 다단계 작업을 훈련할 수 있는 환경 즉 시뮬레이션 공간을 만드는 것입니다. 챗봇 시대를 촉진했던 라벨링 데이터 방식과 마찬가지로 RL 환경은 새로운 세대의 AI에게 중요한 요소가 되고 있습니다.
벤처 펀드 스타트업 회사 및 AI 연구소가 모두 이 경쟁에 뛰어들었습니다. 안드레센 호로위츠는 모든 대규모 연구소가 내부 RL 환경을 구축하고 외부 파트너를 찾고 있다고 말했습니다.
Mechanize, Prime Intellect와 같은 많은 신생 기업들이 환경 플랫폼을 개발하기 위해 막대한 자금을 조달했으며 Scale AI, Surge, Mercor와 같은 데이터 라벨을 부착한 거대 기업들도 뒤처지지 않기 위해 투자 방향을 전환했습니다.
일부 거래는 추세의 열기를 보여줍니다. Anthropic은 RL 환경에 10억 달러 이상을 지출하는 것을 고려하고 있는 것으로 알려졌습니다. Surge는 OpenAI와의 협력 덕분에 작년에 10억 달러의 수익을 올렸습니다. Google tang Meta; Mercor - 평가 100억 달러.
RL 환경의 본질은 AI가 클라우드 소프트웨어를 작동하는 방식을 시뮬레이션하는 것입니다. 예를 들어 작업자는 아마존에서 상품을 구매하도록 요청받고 결과에 따라 점수가 매겨집니다. 작업은 간단해 보이지만 예상치 못한 행동까지 기록할 만큼 충분히 정교한 환경이 필요합니다. 바로 이것이 RL을 정적 데이터보다 훨씬 더 복잡하고 비용이 많이 들게 만듭니다.
RL 확장 기회가 여전히 논란의 여지가 있는 반면 실리콘 밸리의 암스테르담은 ChatGPT를 만들었던 라벨링 데이터 물결을 재현할 것으로 예상되는 AI 암스테르담의 발전을 촉진하기 위한 중요한 방향 중 하나로 여전히 간주합니다.