Google은 TPUv4와 광학적으로 재구성 가능한 미친 AI 네트워크를 자세히 설명합니다.

Aug 17, 2023

Hot Chips 2023에서 Google은 광학적으로 재구성 가능한 놀라운 AI 네트워크를 선보였습니다. 이 회사는 AI 훈련 클러스터의 성능을 높이고 전력을 낮추며 유연성을 높이기 위해 광 회로 전환을 수행하고 있습니다. 더 놀라운 점은 그들이 수년 동안 이것을 생산해 왔다는 것입니다.

실시간으로 진행되고 있으니 오타가 있는 점 양해 부탁드립니다.

이것의 가장 큰 목표는 Google TPU 칩을 하나로 묶는 것입니다.

다음은 7nm Google TPUv4입니다. 이번 주에는 TPUv5에 대해 더 많은 소식을 듣게 될 것으로 예상됩니다. Google은 일반적으로 한 세대의 오래된 하드웨어에 대한 논문과 프레젠테이션을 수행할 수 있습니다. TPU v4i는 추론 버전이었지만 이는 TPUv4에 초점을 맞춘 이야기입니다.

Google은 5ms 서비스 시간 SLA를 충족할 수 있도록 일반 전력에 비해 전력을 과도하게 프로비저닝한다고 말합니다. 따라서 칩의 TDP는 훨씬 높지만 이는 버스트가 SLA 버스트를 충족할 수 있도록 하기 위한 것입니다.

TPUv4 아키텍처 다이어그램은 다음과 같습니다. Google은 이러한 TPU 칩을 단일 가속기로서만 사용하는 것이 아니라 대규모 인프라의 일부로 확장하고 실행하기 위해 제작합니다.

다음은 우리가 지금까지 본 것 중 가장 명확한 표 중 하나에 있는 Google TPUv4 대 TPUv3 통계입니다.

Google은 최고 FLOPS를 두 배 이상 늘렸지만 TPUv3와 TPUv4 간의 성능은 줄였습니다.

Google에는 TPUv4에 SparseCore 가속기가 내장되어 있습니다.

Google의 TPUv4 SparseCore 성능은 다음과 같습니다.

보드 자체에는 4개의 TPUv4 칩이 있으며 수냉식입니다. Google은 액체 냉각으로 변경하기 위해 데이터 센터와 운영을 재작업해야 했지만 전력 절감 효과는 그만한 가치가 있다고 말했습니다. 오른쪽에 있는 밸브는 액체 냉각 튜브를 통한 흐름을 제어합니다. Google에서는 팬 속도 컨트롤러와 비슷하지만 액체용이라고 말합니다.

Google은 또한 이것이 2020년 설계였기 때문에 PCIe Gen3 x16을 호스트에 다시 사용하고 있다고 말합니다.

Google은 많은 데이터 센터처럼 랙 상단에서 전력이 공급되지만 상호 연결도 많습니다. Google은 랙 내에서 전기 DAC를 사용할 수 있지만 랙 외부에서는 광케이블을 사용해야 합니다.

각 시스템에는 4096개의 상호 연결된 칩이 있는 64개의 랙이 있습니다. 어떤 의미에서 256개 노드에 있는 NVIDIA의 AI 클러스터는 GPU 수가 절반입니다.

또한 랙 끝에는 CDU 랙이 있습니다. 액체 냉각에 대해 자세히 알아보려면 액체 냉각 서버가 Gigabyte 및 CoolIT와 함께 작동하는 방식을 참조하세요. 우리는 곧 더 많은 액체 냉각 콘텐츠를 선보일 예정입니다. 구글은 후크와 사다리 소방차 호스에 있는 액체의 유속이 물보다 더 높다고 밝혔습니다.

각 랙은 TPU 사이에 OCS(광회선 교환)가 포함된 4x4x4 큐브(64개 노드)입니다. 랙 내 연결은 DAC입니다. 큐브의 면은 모두 광학적입니다.

다음은 OCS를 살펴보겠습니다. 전기 스위치를 사용하는 대신 OCS를 사용하면 칩을 직접 연결할 수 있습니다. Google은 내부 2D MEMS 어레이, 렌즈, 카메라 등을 보유하고 있습니다. 모든 네트워킹 오버헤드를 피하면 데이터를 보다 효율적으로 공유할 수 있습니다. 잠깐 제쳐두고, 이것은 어떤 면에서는 DLP TV와 유사한 느낌을 줍니다.

구글은 슈퍼팟에 16,000개 이상의 연결과 로드아일랜드 주를 둘러쌀 수 있을 만큼 충분한 거리의 광섬유를 보유하고 있다고 밝혔습니다.

지점 간 통신이 너무 많기 때문에 많은 섬유 가닥이 필요합니다.

그 외에도 각 풀은 더 큰 풀에 연결될 수 있습니다.

OCS는 재구성이 가능하므로 노드 활용도를 높일 수 있습니다.

그런 다음 Google은 광 라우팅을 조정하여 토폴로지를 변경할 수 있습니다.

여기서 Google은 다양한 토폴로지의 이점을 보여줍니다.

Google에서는 모델 요구 사항의 변화로 인해 시스템이 변경될 수 있다고 말하므로 이는 중요합니다.

다음은 최대 3072개의 칩에 대한 선형 속도 향상을 통한 로그 규모의 Google 확장입니다.

Google은 또한 데이터 액세스를 로컬로 유지하기 위해 온칩 메모리를 128MB로 늘렸습니다.

다음은 와트당 성능을 기준으로 NVIDIA A100과 Google의 비교입니다.

다음은 두 개의 포드에 있는 6144개의 TPU를 통해 훈련된 PaLM 모델입니다.

그것은 엄청난 숫자입니다!

이전의: 2026년까지 '더 이상 예상하지 않는' 통합 광섬유 완성 다음: Eurobites: BT와 Nokia가 5G SA 주파수 대역 통합 시연

문의 보내기

보내다