Project Ceiba

클라우드에 세계 최대 AI 슈퍼컴퓨터 중 하나 구축

클라우드에 세계 최대의 AI 슈퍼컴퓨터 중 하나 구축

AWS와 NVIDIA의 획기적인 협업 프로젝트인 Ceiba 프로젝트는 가장 큰 AI 슈퍼컴퓨터 중 하나를 클라우드에 구축하여 인공 지능(AI)의 한계를 극복하는 것을 목표로 합니다. AWS에서만 호스팅되는 이 최첨단 슈퍼컴퓨터는 NVIDIA의 AI 연구 개발 노력에 힘을 실어 줄 것입니다.

최첨단 혁신 주도

NVIDIA 연구 및 개발 팀은 Project Ceiba의 뛰어난 성능을 활용하여 대규모 언어 모델(LLM), 그래픽(이미지, 비디오 및 3D 생성), 시뮬레이션, 디지털 생물학, 로봇 공학, 자율주행 차량, NVIDIA Earth-2를 사용한 기후 예측 등을 비롯한 광범위한 첨단 분야의 발전을 주도할 것입니다. NVIDIA는 이 획기적인 이니셔티브를 통해 다양한 영역에 걸친 인공 지능과 그 애플리케이션의 미래를 구현하는 생성형 AI를 발전시키기 위한 작업을 추진할 것입니다.

디자인 패턴

확장 가능한 AI 인프라

Project Ceiba는 NVIDIA DGX Cloud 아키텍처를 통해 제공될 예정입니다. DGX Cloud는 개발자를 위한 포괄적이고 확장 가능한 AI 플랫폼으로, 최신 NVIDIA 아키텍처를 기반으로 구축되고 AWS와 모든 계층에서 공동 엔지니어링된 확장 가능한 용량을 제공합니다. DGX Cloud는 올해 말에 AWS에서 제공될 예정이며, AWS는 200GB의 NVIDIA Blackwell 아키텍처 기반 DGX Cloud를 제공하는 최초의 클라우드 서비스 공급자가 됩니다. Project Ceiba는 AWS의 특수 목적 AI 인프라를 기반으로 구축되었으며, 대규모 슈퍼컴퓨터에 필요한 엄청난 규모, 향상된 보안 및 탁월한 성능을 제공하도록 설계되었습니다.

디자인 패턴

엑사플롭스 규모의 AI를 처리, 현재 세계에서 가장 빠른 슈퍼컴퓨터인 Frontier보다 약 375배 뛰어난 성능

(슈퍼칩당) 초고속으로 데이터 전송 및 처리

NVIDIA Blackwell GPU, 동종 최초의 슈퍼컴퓨터

기능

이 공동 프로젝트는 업계를 정의하는 몇 가지 이정표를 세웠습니다.
Ceiba 프로젝트는 20,736개의 NVIDIA GB200 Grace Blackwell 슈퍼칩으로 구성되어 있습니다. 이 동종 최초의 슈퍼컴퓨터는 5세대 NVLink를 탑재한 수랭식 랙 스케일 시스템인 NVIDIA의 최신 GB200 NVL72 기술을 사용하여 제작되었습니다. 이 시스템은 10,368개의 NVIDIA Grace CPU에 연결된 Blackwell GPU를 20,736개까지 확장할 수 있습니다. 이 슈퍼컴퓨터는 414엑사플롭스의 대규모 AI를 처리할 수 있는데, 이는 현재 세계에서 가장 빠른 슈퍼컴퓨터인 Frontier보다 약 375배 더 뛰어납니다. 현재 전 세계의 슈퍼컴퓨팅 용량을 합쳐도 414엑사플롭스를 나타내는 컴퓨팅 성능의 1%에도 미치지 못합니다. 이러한 관점에서 보면 전 세계의 최첨단 노트북 컴퓨터 60억 대 이상이 동시에 작동하는 것과 같습니다. 이를 좀 더 자세히 설명하자면, 지구상의 모든 사람이 1초에 한 번씩 계산을 수행해도 Ceiba 프로젝트가 단 1초 만에 수행하는 계산과 같은 성과를 내는 데 1,660년 이상이 걸립니다.

Ceiba 프로젝트는 4세대 AWS Elastic Fabric Adapter(EFA) 네트워킹이 지원하는 대규모 스케일 아웃 기능을 활용한 최초의 시스템으로, 슈퍼칩당 1,600Gbps의 전례 없이 짧은 지연 시간, 고대역폭 네트워킹 처리량을 제공하므로 데이터를 매우 빠르게 전송 및 처리할 수 있습니다. 

수년간 수랭 방식을 이용했습니다. 게이머는 개인용 게임 컴퓨터에 수랭 방식을 이용할 수 있습니다. 새로운 기술은 아니지만 AWS는 Ceiba 프로젝트 이전에 수랭 방식이 아닌 공냉 방식을 의도적으로 선택했습니다. 비용 효율성 면에서 합리적이었기 때문입니다. AWS는 Ceiba 프로젝트에서 전력 밀도 문제를 해결하고 타의 추종을 불허하는 컴퓨팅 성능을 제공하기 위해 데이터 센터에 대규모 수랭 방식을 사용하기 시작하여 보다 효율적이고 지속 가능한 고성능 컴퓨팅 솔루션을 개발했습니다.

Ceiba 프로젝트는 가장 민감한 AI 데이터도 보호할 수 있도록 설계된 업계 최고의 보안 기능을 통합할 예정입니다. AWS Nitro System 및 EFA 기술과 통합된 GPU 간에 보안 통신을 제공하는 NVIDIA의 Blackwell GPU 아키텍처를 통해 생성형 AI 워크로드의 데이터를 포괄적으로 안전하게 암호화할 수 있습니다. 이 공동 솔루션은 인프라 운영자와 완전한 격리를 유지하면서 민감한 AI 데이터를 복호화하고 GPU로 로드하는 기능을 제공합니다. 이 모든 기능은 데이터를 처리하는 데 사용되는 애플리케이션의 신뢰성을 확인하는 동시에 제공됩니다. 고객은 Nitro System을 사용하여 AWS Key Management System(KMS)에 대한 애플리케이션을 암호화 방식으로 검증하고 필요한 검사를 통과한 경우에만 데이터를 복호화할 수 있습니다. 따라서 데이터가 생성형 AI 워크로드를 통과할 때 포괄적으로 암호화할 수 있습니다. 이 블로그를 읽고 보안 AI 웹페이지를 방문하여 자세히 알아보세요.