Google Cloud는 클라우드 플랫폼에서 성능과 비용을 최적화하기 위한 자체 하드웨어 개발 전략의 다음 단계를 표시하는 최신 인공 지능(AI) 칩 세대를 발표했습니다.
주목할 만한 점은 이 8세대 칩 라인이 훈련과 추론이라는 AI의 두 가지 핵심 요구 사항을 충족하는 두 개의 개별 변형으로 분리되었다는 것입니다.
Google은 AI 시스템이 데이터를 이해하도록 가르치기 위해 엄청난 컴퓨팅 능력을 요구하는 단계인 모델 훈련용 TPU 8t를 소개합니다.
반면 TPU 8i는 추론에 최적화되어 있습니다. 즉, 학습된 모델 프로세스는 질문에 답하고 사용자 요청을 실시간으로 처리하는 데 사용됩니다.
Google에 따르면 새로운 TPU는 성능 면에서 상당한 도약을 가져왔습니다. 이전 세대에 비해 모델 훈련 속도가 최대 3배 빠를 수 있습니다.
주목할 만한 점은 이 시스템이 동일한 클러스터에서 100만 개 이상의 TPU를 연결할 수 있는 능력이 있어 복잡한 AI 응용 프로그램에 대한 엄청난 규모의 컴퓨팅을 열어준다는 것입니다.
성능 외에도 비용 및 에너지 요소도 강조됩니다. 구글이 자체 설계한 TPU 칩은 에너지 절약 능력으로 유명하여 기업이 대규모 AI를 구현할 때 운영 비용을 크게 절감하는 데 도움이 됩니다.
이는 AI 수요가 급증하고 인프라 및 전력에 대한 압력이 가해지는 상황에서 중요한 이점입니다.
그럼에도 불구하고 차세대 TPU 출시가 구글이 엔비디아(전 세계 AI 칩 시장을 지배하는 거대 기업)에 등을 돌리는 것을 의미하지는 않습니다.
실제로 Google은 TPU가 클라우드 인프라에서 Nvidia GPU를 사용하는 시스템을 대체하지 않고 추가적인 역할을 할 것이라고 주장합니다.
회사는 심지어 베라 루빈 아키텍처를 포함한 엔비디아의 최신 칩을 향후 서비스에 통합할 것이라고 밝혔습니다.
이러한 추세는 Google뿐만이 아닙니다. Microsoft 및 Amazon과 같은 주요 클라우드 공급업체도 제3자 의존도를 줄이고 비용을 최적화하기 위해 내부 AI 칩을 개발하고 있습니다.
그러나 단기적으로 엔비디아는 여전히 거의 대체 불가능한 위치를 유지하고 있습니다.
분석가 패트릭 무어헤드는 2016년부터 구글의 TPU가 엔비디아에 불리할 수 있다고 예측했습니다. 그러나 현재 현실은 엔비디아가 AI 폭발 덕분에 시가 총액이 거의 5조 달러에 달하는 회사로 부상하면서 그 반대를 보여줍니다.
심지어 Google Cloud와 같은 클라우드 플랫폼의 발전은 Nvidia에 계속해서 이익을 가져다줄 수 있습니다. AI 수요가 증가함에 따라 기업은 Nvidia GPU와 Google TPU를 포함하여 더 많은 컴퓨팅 리소스가 필요할 것입니다.
여기서 멈추지 않고 이 두 거대 기업은 협력을 확대하고 있습니다. 구글은 Open Compute Project의 후원하에 구글이 개발하고 소스 코드를 공개한 소프트웨어 네트워크 솔루션인 Falcon 기술을 통해 클라우드 기반 GPU 시스템의 네트워크 성능을 최적화하기 위해 Nvidia와 협력하고 있다고 밝혔습니다.
자체 칩 개발과 전략적 협력의 결합은 구글이 독립적인 역량을 구축하면서 기존 생태계를 활용하는 균형 잡힌 방향을 추구하고 있음을 보여줍니다.