AI 인프라 RFP 가이드: GPU 배포를 위한 사양서 작성법
2025년 12월 11일 업데이트
2025년 12월 업데이트: AI 인프라 시장이 2,500억 달러를 초과했으며, 데이터센터 지출은 2030년까지 1조 달러에 도달할 전망입니다. 5MW 이상 용량에 대한 조달 일정이 24개월 이상으로 연장되고 있습니다. 데이터센터 공실률은 사상 최저인 1.9%를 기록했으며, 70% 이상이 사전 임대 완료되어 벤더들이 경쟁하기보다 고객을 선별하는 상황입니다. MLPerf 벤치마크가 표준 RFP 사양 언어로 자리잡고 있으니 독점 지표는 피하시기 바랍니다.
Supermicro의 AI 팩토리 클러스터 솔루션은 32개 GPU가 장착된 4노드부터 256개 GPU가 장착된 32노드까지 소형, 중형, 대형 구성으로 제공되며, 각 구성은 L12 멀티랙 클러스터 수준까지 사전 통합 및 테스트를 완료합니다.[^1] 이러한 제품군은 NVIDIA AI Enterprise 소프트웨어, NVIDIA Spectrum-X 네트워킹, 검증된 하드웨어 구성을 턴키 솔루션으로 번들링하여 벤더 패키징이 조달 결정에 미치는 영향을 보여주는 대표적 사례입니다. AI 인프라용 RFP를 작성하는 조직은 경쟁 입찰과 운영 적합성을 보장하는 요구사항을 명시하면서 이러한 번들 제품을 이해해야 합니다.
AI 인프라 시장은 2025년 동안 총 2,500억 달러 이상의 수익을 창출했으며, 데이터센터 지출은 2030년까지 연간 1조 달러를 넘어설 것으로 예상됩니다.[^2] 대규모 투자에도 불구하고, 5MW 이상의 용량을 필요로 하는 조직의 조달 일정은 전력 가용성, 숙련 인력 부족, 공급망 제약으로 인해 24개월 이상으로 늘어나고 있습니다.[^3] 효과적인 RFP는 벤더 평가와 계약 협상을 가능하게 하는 정밀도로 조직 요구사항을 포착하면서 이러한 시장 현실을 반영해야 합니다.
AI 인프라 조달의 이해
AI 인프라 조달은 기존 IT 구매와 근본적으로 다릅니다. 특수 하드웨어, 전력 요구사항, 냉각 수요, 통합 복잡성으로 인해 표준 서버 조달에서는 무시되는 차원을 다루는 RFP 구조가 필요합니다.
조달에 영향을 미치는 시장 역학
주요 데이터센터 시장의 공실률은 공급이 34% 증가했음에도 불구하고 사상 최저인 1.9%로 급락했으며, 신규 건설의 70% 이상이 완공 전에 사전 임대되었습니다.[^4] 이러한 용량 제약은 협상 역학을 변화시켜 벤더들이 사업을 위해 경쟁하기보다 고객을 선별하는 경우가 많습니다. RFP는 벤더의 관심을 유지하는 유연성과 사양의 정밀도 사이에서 균형을 맞춰야 합니다.
40,000개 이상의 기업과 400만 명의 개발자가 머신러닝 및 AI 프로젝트를 위해 NVIDIA GPU에 의존하고 있습니다.[^5] 이러한 집중도는 공급 할당 문제를 야기하여 벤더 관계와 주문 시기가 사양만큼이나 납품 일정에 영향을 미칩니다. 조직은 RFP 일정을 벤더 용량 계획 주기와 조율해야 합니다.
총소유비용 고려사항
GPU 클러스터 활용률은 종종 30-70% 범위에 머물러, 조직이 이론적 요구사항보다 1.5-3배 더 많은 GPU 용량을 설치한다는 것을 의미합니다.[^6] 이러한 활용 현실은 RFP 평가를 위한 비용 모델링에 영향을 미칩니다. 더 나은 오케스트레이션을 통해 더 높은 활용률을 제공하는 벤더는 GPU당 비용이 높더라도 우수한 경제성을 제공할 수 있습니다.
Stanford의 2025 AI Index에 따르면 추론 비용이 백만 토큰당 20달러에서 0.07달러로 하락했으며, 이는 극적인 하드웨어 효율성 향상을 반영합니다.[^7] 급속한 기술 진화는 오늘 조달한 인프라가 기존 IT 자산보다 빠르게 경제적으로 구식이 될 수 있음을 의미합니다. RFP는 초기 배포와 함께 갱신 및 업그레이드 경로를 명시해야 합니다.
AI 인프라를 위한 RFP 구조
효과적인 AI 인프라 RFP에는 기술 요구사항, 상업적 조건, 납품 및 설치, 지원 기대사항, 평가 기준을 다루는 섹션이 포함됩니다.
기술 요구사항 명세
기술 사양은 정확한 벤더 제안을 위한 충분한 세부사항을 제공하면서도 경쟁을 제한하는 불필요한 제약을 피하면서 컴퓨팅, 네트워킹, 스토리지, 전력, 냉각 요구사항을 다루어야 합니다.
컴퓨팅 요구사항은 GPU 세대, 메모리 용량, 인터커넥트 요구사항을 명시해야 합니다. 특정 제품명을 지정하기보다 여러 벤더가 대응할 수 있는 성능 요구사항을 기술하십시오. 독점 지표가 아닌 MLPerf와 같은 산업 표준 테스트를 사용하여 벤치마크 성능 기대치를 명시하십시오.
네트워킹 요구사항은 노드 내 GPU 간 통신과 클러스터 전체의 패브릭 연결성을 모두 다룹니다. 필요한 대역폭, 지연 시간 한계, 토폴로지 선호도를 명시하십시오. InfiniBand 대 이더넷 결정은 벤더 옵션에 상당한 영향을 미치므로 가정이 아닌 실제 워크로드 요구사항을 반영해야 합니다.
스토리지 요구사항은 학습 데이터 액세스를 위한 용량, 대역폭, 지연 시간을 명시합니다. 고성능 병렬 파일 시스템은 표준 엔터프라이즈 스토리지와 상당히 다릅니다. 스토리지 아키텍트가 AI 데이터 패턴을 이해한다고 가정하지 말고 워크로드 수준에서 IOPS와 처리량 요구사항을 명시하십시오.
배포 범위 정의
RFP는 사이트 준비, 설치, 통합, 테스트, 문서화 산출물을 포함한 배포 범위를 명확히 정의해야 합니다.
사이트 준비 책임은 고객과 벤더 간에 명시적으로 할당되어야 합니다. 전력 배전, 냉각 인프라, 물리적 공간 준비는 주요 비용 및 일정 항목입니다. 불명확한 책임 할당은 분쟁과 지연을 초래합니다.
통합 테스트 사양은 납품된 시스템이 현실적인 워크로드에서 성능 요구사항을 충족하도록 보장합니다. 벤더가 제안서를 제출하기 전에 인수 테스트 절차, 성능 벤치마크, 합격/불합격 기준을 정의하십시오. 모호한 인수 조건은 납품 시 분쟁을 초래합니다.
문서화 요구사항은 벤더가 제공해야 하는 운영 절차, 유지보수 가이드, 교육 자료를 명시합니다. AI 인프라의 운영 복잡성은 일반적인 IT 시스템을 초과하므로 문서화 품질이 운영 성공에 매우 중요합니다.
핵심 사양 영역
AI 인프라 RFP에서는 여러 사양 영역에 특별한 주의가 필요합니다.
GPU 구성 사양
GPU 사양은 하드웨어 기능과 소프트웨어 스택 요구사항을 모두 다루어야 합니다.
A100 및 H100과 같은 데이터센터 GPU는 NVLink 인터커넥트가 필요한 멀티노드 학습 클러스터에 적합합니다.[^8] 소비자용 GPU는 프로덕션 AI 워크로드에 필요한 메모리 용량, 인터커넥트 대역폭, 엔터프라이즈 기능이 부족합니다. 사양은 특정 모델을 불필요하게 제한하지 않으면서 데이터센터 GPU 등급을 요구해야 합니다.
메모리 용량 요구사항은 모델 크기와 배치 구성에 따라 달라집니다. 현재 대규모 언어 모델 학습은 효율적인 운영을 위해 GPU당 80GB 이상의 메모리가 필요합니다. 현재 제품 가용성이 아닌 의도된 워크로드 분석을 기반으로 최소 메모리 요구사항을 명시하십시오.
소프트웨어 스택 요구사항은 CUDA 버전 호환성, 드라이버 관리 기능, 컨테이너 런타임 지원을 명시해야 합니다. 소프트웨어 에코시스템은 운영 성공을 위해 하드웨어 사양만큼 중요합니다.
네트워크 패브릭 사양
네트워크 패브릭 설계는 학습 성능과 운영 유연성에 상당한 영향을 미칩니다.
필요한 이분할 대역폭을 총 엔드포인트 대역폭의 비율로 명시하십시오. 전체 이분할 대역폭은 트래픽 패턴에 관계없이 일관된 성능을 보장하지만 비용이 증가합니다. 대역폭 요구사항을 정당화하는 워크로드 분석을 문서화하십시오.
지연 시간 사양은 집합 연산 요구사항을 반영해야 합니다. All-reduce 지연 시간은 학습 반복 시간에 직접적인 영향을 미칩니다. 꼬리 지연 시간 문제를 숨기는 평균값이 아닌 최대 허용 지연 시간 백분위수를 명시하십시오.
이중화 및 장애 조치 요구사항은 네트워크 구성 요소 장애로부터 보호합니다. 허용 가능한 장애 시나리오, 장애 조치 시간 한계, 이중화 수준을 정의하십시오. AI 클러스터의 단일 장애점은 수백 개의 고가 GPU에 영향을 미칩니다.
전력 및 냉각 사양
전력 및 냉각 사양은 용량과 효율성 요구사항을 모두 다룹니다.
전력 용량 사양은 최대 및 지속 소비량을 모두 다루어야 합니다. GPU 클러스터는 버스트 워크로드 중에 지속 정격을 일시적으로 초과할 수 있습니다. 전력 공급 여유 요구사항과 측정 방법을 명시하십시오.
냉각 용량 사양은 열 제거와 분배를 모두 다룹니다. 고밀도 GPU 랙은 방향성 냉각 전략이 필요한 열을 집중시킵니다. 최대 유입 온도, 허용 온도 범위, 모니터링 요구사항을 명시하십시오.
전력사용효율(PUE)과 같은 지표를 사용한 효율성 목표는 운영 비용 기대치를 설정합니다. 최신 AI 데이터센터는 PUE 1.2 미만을 목표로 합니다. 검증을 위한 효율성 목표와 측정 방법을 명시하십시오.
평가 기준 개발
RFP 평가 기준은 기술 준수, 가격, 납품 능력, 지원 품질에 걸쳐 객관적인 벤더 비교를 가능하게 해야 합니다.
기술 준수 점수
기술 준수 평가는 제안서가 필수 요구사항을 충족하는지 확인하고 선택적 기능에 점수를 부여합니다. 조직 우선순위를 반영한 가중 중요도와 함께 각 사양 영역을 다루는 점수 매트릭스를 개발하십시오.
벤치마크 요구사항은 제안서 간 성능 비교를 가능하게 합니다. 필요한 벤치마크, 테스트 조건, 제출 형식을 명시하십시오. MLPerf 학습 및 추론 벤치마크는 산업 표준 비교 포인트를 제공합니다.[^9]
NVIDIA, Intel, AMD의 참조 아키텍처는 벤더가 충족하거나 초과해야 하는 기준 구성을 제공합니다. RFP는 대안이 이점을 제공하는 영역에서 벤더 혁신을 허용하면서 이러한 아키텍처를 참조할 수 있습니다.
가격 평가 방법론
가격 평가는 배포 수명주기에 걸친 취득 비용, 운영 비용, 총소유비용을 다루어야 합니다.
취득 비용에는 하드웨어, 소프트웨어, 설치 및 필요한 사이트 준비가 포함됩니다. 제안서 간 구성요소 수준 비교가 가능하도록 상세한 비용 명세를 요구하십시오.
운영 비용 추정치는 예상 운영 기간 동안의 전력 소비, 냉각, 유지보수, 지원을 다루어야 합니다. 효율성 이점을 제공하는 벤더는 운영 비용 절감을 통해 더 높은 취득 비용을 정당화할 수 있습니다.
수명주기 비용 모델링은 예상 기술 갱신 주기를 반영해야 합니다. AI 인프라는 지원 인프라가 더 오래 서비스되는 동안 2-3년마다 GPU 업그레이드가 필요할 수 있습니다. RFP는 향후 GPU 세대에 대한 업그레이드 경로 요구사항과 가격을 명시해야 합니다.
벤더 역량 평가
벤더 역량 평가는 제안된 솔루션을 제공하고 지속적인 지원을 제공할 수 있는 능력을 평가합니다.
납품 실적 검증은 유사한 배포에 대한 벤더 경험을 조사합니다. 비슷한 규모와 복잡성의 설치에 대한 고객 참조를 요청하십시오. 참조에 연락하여 주장된 역량을 확인하십시오.
지원 역량 평가는 인력, 응답 시간, 에스컬레이션 절차를 조사합니다. AI 인프라 문제는 종종 일반적인 IT 지원을 넘어서는 전문 지식이 필요합니다. GPU 관련 문제 해결을 위한 지원팀 자격을 확인하십시오.
재정적 안정성 평가는 벤더가 다년간의 약속을 이행할 수 있는지 확인합니다. AI 인프라 계약은 종종 수년간의 지원 및 업그레이드 의무를 포함합니다. 벤더의 재정적 어려움은 고객이 지원되지 않는 시스템에 방치될 수 있습니다.
전문 조달 지원
AI 인프라 조달의 복잡성은 대부분의 조직이 내부적으로 보유하지 않은 전문 지식의 혜택을 받습니다. 기술 사양, 벤더 환경 탐색, 계약 협상에는 여러 배포에서 축적된 경험이 필요합니다.
Introl의 550명의 현장 엔지니어가 AI 인프라 조달 및 배포를 통해 조직을 지원합니다.[^10] 이 회사는 3년 성장률 9,594%로 2025 Inc. 5000에서 14위를 차지했으며, 이는 수요를 반영합니다
[번역을 위해 콘텐츠 잘림]