banner
홈페이지 / 소식 / 생성적 AI와 데이터 센터의 미래: 6부
소식

생성적 AI와 데이터 센터의 미래: 6부

Jul 18, 2023Jul 18, 2023

데이터 센터가 어떻게 적응해야 하는지에 대한 DE-CIX의 CEO

DCD>Magazine 48호에서는 생성 AI와 그것이 디지털 인프라에 미치는 영향에 대한 특집 기사를 게재했습니다. 여기에서 직접 길을 찾았다면 처음부터 시작하고 싶을 수도 있습니다. 생성 AI: 데이터 센터의 과대 광고, 기회 및 미래 // 1부 - 모델

거대한 AI 모델을 처리하기 위해 실리콘이 한계에 도달하는 것처럼 네트워킹과 데이터 센터 아키텍처도 문제에 직면해 있습니다.

SemiAnalytics의 Dylan Patel은 “이러한 대규모 시스템을 사용하면 아무리 Cerebras라도 단일 칩에 넣을 수 없습니다.”라고 말했습니다. “글쎄, 이 분할된 칩을 모두 어떻게 연결합니까? 관리 가능한 것이 100개라면, 수천 또는 수만 개라면 정말 어려움을 겪기 시작하는 것이고 Nvidia는 바로 그것을 배포하고 있습니다. 아마도 세계 최고의 네트워킹을 갖춘 곳은 그들이거나 Broadcom일 것입니다.”

그러나 클라우드 회사의 참여도 점점 더 커지고 있습니다. 그들은 성장하는 컴퓨팅 클러스터를 지원하기 위해 자체 네트워킹 장비와 토폴로지를 구축할 수 있는 리소스를 보유하고 있습니다.

Amazon Web Services는 AWS가 특별히 제작한 Nitro 네트워킹 카드와 함께 최대 20,000개의 GPU 클러스터를 배포했습니다. 회사의 Chetan Kapoor는 "그리고 우리는 여러 클러스터를 배포할 것입니다."라고 말했습니다. “이것이 바로 이 특정 공간에서 AWS를 차별화하는 요소 중 하나입니다. 우리는 Nitro 기술을 활용하여 Elastic Fabric Adapter라고 부르는 자체 네트워크 어댑터를 보유하고 있습니다."

회사는 2세대 EFA를 출시하는 과정에 있습니다. “또한 우리는 A100과 H100 사이에서 노드당 대역폭을 약 8배로 늘리는 과정에 있습니다.”라고 그는 말했습니다. “노드당 최대 3,200Gbps까지 확장할 예정입니다.”

Google에서는 대규모 데이터 센터 네트워크를 점검하기 위한 다년간의 야심찬 노력이 성과를 거두기 시작했습니다.

회사는 데이터 센터에서 이전에는 볼 수 없었던 규모로 Mission Apollo 맞춤형 광 스위칭 기술을 배포하기 시작했습니다.

기존 데이터 센터 네트워크는 컴퓨터가 랙 상단형 스위치(리프)에 연결된 후 전자 패킷 스위치로 구성된 스파인에 연결되는 스파인 및 리프 구성을 사용합니다. 프로젝트 아폴로(Project Apollo)는 척추를 거울로 빛의 방향을 바꾸는 완전한 광학적 상호 연결로 대체합니다.

Google의 Amin Vahdat는 "훈련과 어느 정도의 추론에 필요한 대역폭은 엄청납니다."라고 말했습니다.

우리의 가장 큰 기능은 컴퓨팅의 차세대 물결을 살펴봅니다.

Apollo는 회사가 "이러한 훈련 알고리즘의 통신 패턴과 더 밀접하게 일치하는 네트워킹 토폴로지"를 구축할 수 있게 해주었다고 그는 말했습니다. "우리는 엄청난 양의 대역폭이 동기식으로 실시간으로 발생하는 칩 간에 매개변수를 분배하기 위해 전문화된 전용 네트워크를 설정했습니다."

이것은 여러 가지 이점이 있다고 그는 말했습니다. 이 규모에서는 단일 칩이나 랙이 정기적으로 실패하며 "이제 내 통신 패턴이 내 메시의 논리적 토폴로지와 일치하기 때문에 광학 회로 스위치가 이에 대응하여 재구성하는 데 매우 편리합니다"라고 그는 말했습니다.

“광 회로 스위치에 '가서 다른 곳에서 다른 칩을 가져와서 해당 칩을 빠진 구멍에 연결하도록 광 회로 스위치를 재구성한 다음 계속 진행하세요'라고 말할 수 있습니다. 전체 계산을 다시 시작하거나 최악의 경우 처음부터 시작할 필요가 없습니다.”

Apollo는 또한 용량을 유연하게 배포하는 데 도움이 됩니다. 이 회사의 TPUv4는 최대 4,096개의 칩 블록으로 확장됩니다. "여기서 256개, 저기서 64개, 여기에서 128개, 저기서 512개를 갑자기 예약하면 사용할 수 있는 칩 블록이 64개가 있는 구멍이 몇 개 생길 것입니다."

기존 네트워크 아키텍처에서는 고객이 512개의 칩을 원하더라도 해당 칩을 사용할 수 없습니다. Vahdat는 “광회로 스위치가 없었다면 나는 가라앉았을 것이고 일부 작업이 완료될 때까지 기다려야 했을 것”이라고 말했습니다. "그들은 이미 내 메시의 일부를 차지하고 있으며 사용 가능한 칩이 1,024개라도 연속된 512가 없습니다."