AI를 위한 백업 전원 전략: UPS, 발전기, 배터리 지속 시간
2025년 12월 11일 업데이트
2025년 12월 업데이트: Blackwell Ultra와 Rubin AI 서버는 2026-2027년까지 랙당 250-900 kW를 필요로 하며, 이는 현재 132 kW에서 크게 증가한 수치입니다. AI 데이터센터는 99.99999% 가동률(세븐 나인)을 목표로 하며, 이를 위해 메가와트급 BESS 배치가 필요합니다. 버지니아 지역의 그리드 연결 기간은 최대 7년까지 늘어나고 있습니다. 10-15 kW 랙용으로 설계된 기존 UPS는 AI 밀도에 맞게 확장할 수 없습니다.
NVIDIA의 Blackwell GPU와 GB200NVL72 랙 설계는 최대 랙 전력 밀도를 132 kW까지 끌어올렸으며, 향후 Blackwell Ultra와 Rubin AI 서버는 2026-2027년까지 랙당 250~900 kW를 필요로 합니다.[^1] 업계 전문가들이 17년 전 데이터센터에서 일했을 때, 가장 큰 랙 레벨 전력 장치는 6 킬로와트였습니다. 오늘날 NVIDIA는 단일 랙에서 120 kW 또는 심지어 300 kW를 필요로 하는 AI 서버를 출시하고 있습니다.[^2] 이러한 전력 밀도 증가는 백업 전원을 표준 데이터센터 상품에서 특수 설계 솔루션이 필요한 핵심 엔지니어링 과제로 변화시키고 있습니다.
AI 데이터센터는 99.99999% 가동률(세븐 나인)을 목표로 하며, 이는 일반적인 파이브 나인이나 심지어 식스 나인보다 훨씬 높은 수준입니다.[^3] 이러한 엄격한 가용성 요구사항은 일반적으로 발전기당 1~2 메가와트 규모의 완전한 발전기 기반 백업과 발전기가 가동될 때까지 전력을 유지할 수 있는 배터리 시스템을 필요로 합니다. 10-15 kW 랙용으로 설계된 기존 UPS 구성은 고밀도 AI 워크로드에 맞게 확장할 수 없습니다. 앞으로는 수십 또는 수백 메가와트 전력 수준까지 확장 가능한 배터리 에너지 저장 시스템(BESS)과 같은 솔루션이 AI 인프라에 필요한 역량을 제공합니다.
전력 아키텍처 기본 사항
AI 데이터센터 전력 아키텍처는 고밀도 GPU 인프라의 고유한 요구사항을 해결합니다.
유틸리티 전력 과제
버지니아와 같은 핫스팟에서 그리드 연결 기간은 수년에서 최대 7년까지 늘어났습니다.[^4] 네 가지 요인이 이러한 지연을 가중시킵니다: 복원력 있는 고용량 피드의 기술적 복잡성, 업스트림 그리드 용량 부족, 핵심 전기 장비의 긴 리드 타임, 느리고 일관성 없는 허가 절차입니다. AI 인프라를 계획하는 조직은 배치 수년 전부터 전력 조달을 시작해야 합니다.
그리드 용량 제약으로 인해 AI 데이터센터는 다른 요인에 최적인 위치가 아닌, 가용 전력이 있는 위치로 이동해야 합니다. 전력 가용성 제약은 네트워크 연결성이나 노동 시장과 같은 전통적인 요인보다 점점 더 사이트 선정을 좌우하고 있습니다.
독립 변전소로부터의 이중 유틸리티 피드는 단일 피드 장애에 대한 이중화를 제공합니다. 이중화는 가용성을 높이지만 여러 피드가 가능한 지리적 위치가 필요합니다. 모든 위치가 AI 데이터센터에 필요한 이중화 유틸리티 인프라를 제공할 수 있는 것은 아닙니다.
중압 및 고압 배전
Meta, Google, Microsoft와 같은 하이퍼스케일러들은 최대 13.8kV의 중압(MV) 배전과 400VDC 및 800VDC의 고압 DC 아키텍처를 배치할 것으로 예상됩니다.[^5] 높은 전압은 전류 요구량을 줄여 이전에 손실되던 막대한 에너지를 회수하고 케이블에 필요한 구리를 크게 절감합니다.
데이터센터 내 중압 배전은 유틸리티에서 랙까지의 변환 단계를 줄입니다. 각 변환 단계는 손실과 장애 지점을 추가합니다. 단순화된 전력 경로는 효율성과 신뢰성을 모두 향상시킵니다.
AC 대 DC 논쟁은 AI 인프라에서 다시 부활했습니다.[^5] AC는 그리드 인터페이스와 시설 레벨 배전에서 여전히 지배적이지만, 특히 랙당 메가와트급 GPU 중심 아키텍처에서 내부 운영에 전력을 공급하는 고압 DC 시스템에 대한 모멘텀이 형성되고 있습니다.
AI를 위한 UPS 시스템
무정전 전원 장치(UPS)는 유틸리티 장애와 발전기 시동 사이의 간극을 메우며, 전환 과정에서 전력을 유지합니다.
기술 선택
AI 애플리케이션용 현대 UPS 시스템은 기존 납축 배터리 시스템에 비해 더 빠른 충전, 더 긴 수명, 더 높은 전력 밀도를 제공하는 리튬이온 배터리를 사용합니다.[^6] 이러한 고급 시스템은 80kW를 초과하는 AI 랙 부하를 지원하면서 발전기 시동에 충분한 런타임을 유지합니다.
리튬이온 배터리는 납축전지의 3-5년에 비해 10-15년의 수명을 제공하여 교체 빈도와 유지보수 부담을 줄입니다. 더 높은 에너지 밀도는 동등한 용량에 대해 더 작은 설치 면적을 허용하며, 이는 공간이 제한된 데이터센터에서 가치가 있습니다.
플라이휠 UPS 시스템은 매우 짧은 기간에 대한 대안적 브리징을 제공합니다. 플라이휠은 배터리 열화 우려 없이 짧은 전력 장애를 처리하는 데 탁월합니다. 일부 아키텍처는 다양한 유형의 장애에 대한 최적화된 대응을 위해 플라이휠과 배터리 시스템을 결합합니다.
런타임 요구사항
발전기 시동 및 동기화는 발전기 유형과 부하 전환 복잡성에 따라 1분에서 수 분이 소요됩니다.[^3] UPS 런타임은 발전기 장애나 여러 번의 시동 시도에 대한 안전 마진을 포함하여 예상되는 최대 발전기 시동 시간을 초과해야 합니다.
AI 워크로드는 기존 컴퓨팅 워크로드만큼 원활하게 체크포인트를 만들고 재개할 수 없습니다. 장기 실행 훈련 작업은 짧은 전력 중단으로 수 시간의 진행 상황을 잃을 수 있습니다. 런타임 요구사항은 단순히 하드웨어 통과 시간뿐만 아니라 워크로드의 정상적인 종료 시간을 고려해야 합니다.
시간이 지남에 따른 배터리 열화는 사용 가능한 런타임을 감소시킵니다. 시스템은 초기 용량뿐만 아니라 수명 종료 용량이 요구사항을 충족하도록 설계되어야 합니다. 배터리 모니터링과 교체 일정은 시스템 수명 전반에 걸쳐 가용성을 유지합니다.
확장성 과제
기존 UPS 구성은 더 이상 고밀도 AI 워크로드에 적합하지 않습니다.[^3] 과거 랙 밀도용으로 크기가 결정된 UPS 시스템은 랙당 수백 킬로와트까지 경제적으로 확장할 수 없습니다. 모듈형 UPS 아키텍처는 용량 추가를 허용하지만 여전히 물리적 설치 면적 제약에 직면합니다.
분산 UPS 아키텍처는 대형 시스템을 중앙 집중화하는 대신 더 작은 장치를 부하 가까이에 배치합니다. 이러한 분산은 인프라 경로 요구사항을 줄이지만 구성 요소 수와 모니터링 복잡성을 증가시킵니다.
배터리 에너지 저장 시스템
BESS 기술은 AI 데이터센터의 백업 보조 장치에서 핵심 인프라로 전환되었습니다.[^7]
BESS 아키텍처
대규모 BESS는 약 34,000 볼트의 중압 시스템으로 옥외에 설치할 수 있으며, 10 MW에서 최대 100 MW 빌딩 블록까지 확장 가능합니다.[^7] 옥외 배치는 귀중한 실내 데이터 홀 공간을 컴퓨팅 장비용으로 확보합니다.
배터리 시스템은 중압 라인 인터랙티브 UPS와 백업 발전기 대체 장치로 단일 장치에서 기능하도록 구성할 수 있습니다.[^7] 이러한 통합 접근 방식은 별도의 UPS 및 발전기 시스템에 비해 구성 요소를 크게 줄이고 자본 지출을 낮춥니다.
BESS는 기존 UPS가 경제적으로 달성할 수 없는 4~8시간의 연장된 백업 기간을 제공합니다.[^3] 이러한 연장된 런타임은 발전기 시동 이상의 시나리오, 즉 장기 그리드 정전이나 발전기 유지보수 기간을 해결합니다.
그리드 서비스 통합
BESS 시스템은 백업에 필요하지 않을 때 그리드 서비스 시장에 참여하여 인프라 비용을 상쇄하는 수익을 창출할 수 있습니다. 주파수 조정, 수요 반응, 피크 절감 서비스는 유휴 용량에서 경제적 가치를 제공합니다.
그리드 통합은 수익 창출과 백업 가용성 간의 트레이드오프를 관리하는 정교한 제어가 필요합니다. 시스템은 그리드 서비스 참여를 극대화하면서 백업 기능을 보장하는 최소 충전 수준을 유지해야 합니다.
재생 에너지 통합은 BESS를 사용하여 과잉 태양광 또는 풍력 발전을 저장했다가 나중에 사용합니다. 이러한 통합은 자가 발전을 통해 유틸리티 비용을 잠재적으로 줄이면서 지속 가능성 목표를 지원합니다.
발전기 시스템
발전기는 배터리가 장기 정전에 대해 경제적으로 제공할 수 없는 연장된 런타임 기능을 제공합니다.
크기 결정 및 구성
메가와트급 디젤 발전기는 연료 없이 약 5,000 킬로그램의 무게가 나가며, 5 × 1.5미터 설치 면적에 2.5미터 높이를 차지하고, 표준 1,000리터 연료 탱크로 시작하며, 배송 및 설치를 제외하고 약 100만~200만 달러의 비용이 듭니다.[^3] 수십 메가와트를 필요로 하는 AI 데이터센터는 상당한 부지 요구사항을 갖춘 발전기 농장이 필요합니다.
N+1 또는 2N 이중화 구성은 단일 발전기 장애 시에도 발전기 가용성을 보장합니다. 이중화 수준 선택은 비용과 가용성 요구사항의 균형을 맞춥니다. 중요한 AI 인프라는 일반적으로 최소 N+1 이중화가 필요합니다.
발전기 병렬 운전은 여러 발전기가 부하를 공유할 수 있게 하여 이중화와 확장성을 모두 제공합니다. 병렬 개폐 장치는 발전기 운영을 조정하며, 복잡성을 추가하지만 효율적인 발전기 부하를 가능하게 합니다.
연료 및 배출
디젤은 입증된 신뢰성과 에너지 밀도로 백업 전원의 지배적인 발전기 연료로 남아 있습니다. 연료 저장 요구사항은 원하는 런타임에 따라 확장되며, 일반적인 구성은 24-72시간의 운영을 제공합니다.
배출 규제는 특히 대기 질 문제가 있는 지역에서 디젤 발전기 운영을 점점 더 제한하고 있습니다. 배출 제어 시스템은 비용과 복잡성을 추가합니다. 일부 관할 구역은 연간 운영 시간을 제한하여 테스트 및 유지보수 관행에 영향을 미칩니다.
천연가스 발전기는 파이프라인 가스가 이용 가능한 곳에서 연료 저장 요구사항을 없앱니다. 지속적인 연료 공급은 기계적 유지보수 요구사항에 의해서만 제한되는 연장된 운영을 가능하게 합니다. 그러나 천연가스는 가스 배급에 영향을 미치는 광범위한 비상 상황에서 사용 가능하지 않을 수 있습니다.
대체 연료
수소 연료전지는 여러 하이퍼스케일러들이 시범 운영 중인 무배출 백업 전원을 제공합니다.[^8] Microsoft는 48시간의 백업 전원을 제공하는 3MW 수소 연료전지를 시연했습니다. 이 기술은 디젤보다 여전히 더 비싸지만 배출과 지속 가능성 문제를 모두 해결합니다.
지속 가능한 항공 연료(SAF)와 재생 디젤은 수명 주기 배출을 줄인 디젤 대체품을 제공합니다. 이러한 바이오 연료는 수정 없이 기존 발전기 장비에서 작동합니다. 가용성과 비용은 광범위한 채택에 제약으로 남아 있습니다.
통합 전력 전략
현대 AI 데이터센터 전력 아키텍처는 여러 기술을 복원력 있는 시스템으로 통합합니다.
티어 토폴로지 고려사항
Uptime Institute 티어 분류는 기본(Tier I)부터 내결함성(Tier IV)까지 이중화 수준을 정의합니다.[^9] AI 인프라는 일반적으로 Tier III(동시 유지보수 가능) 또는 Tier IV(내결함성) 토폴로지가 필요합니다. 티어 수준은 자본 비용, 운영 복잡성, 가용성 보장에 영향을 미칩니다.
각 티어 수준 내의 구성 요소 이중화는 다양합니다. 유틸리티에서 UPS를 통해 부하까지의 여러 경로는 단일 구성 요소 장애 시에도 지속적인 운영을 보장합니다. 토폴로지 설계는 어떤 장애 조합이 정전을 유발하는지 결정합니다.
모니터링 및 자동화
전력 인프라 모니터링은 유틸리티 피드, 개폐 장치, UPS, 배터리, 발전기 전반의 상태를 추적합니다. 포괄적인 모니터링은 사전 예방적 유지보수와 신속한 장애 대응을 가능하게 합니다. 모니터링 공백은 장애 감지를 지연시키는 사각지대를 만듭니다.
자동 전환 개폐기는 수동 개입 없이 전원 간에 부하를 이동시킵니다. 전환 타이밍과 조정은 부하 중단을 유발하는 간극을 방지합니다. 전환 시퀀스 테스트는 실제 동작이 설계 의도와 일치하는지 검증합니다.
예측 유지보수는 운영 데이터를 사용하여 구성 요소 장애가 발생하기 전에 이를 예측합니다. 배터리 상태 모니터링, 발전기 성능 추세 분석, UPS 구성 요소 모니터링은 장애 전 예정된 교체를 가능하게 합니다.
전문 구현
AI 데이터센터의 전력 인프라 복잡성은 전기 공학, 제어 통합, 운영 절차에 걸친 전문 지식이 필요합니다.
Introl의 550명의 현장 엔지니어 네트워크는 AI 배포를 위한 백업 전력 인프라를 구현하는 조직을 지원합니다.[^10] 회사는 2025년 Inc.
[번역을 위해 내용 잘림]