AI 워크로드 스케줄링: 시간대별 GPU 활용 최적화

OpenAI는 6개월치 작업 대기열에도 불구하고 GPU의 43%가 유휴 상태임을 발견—연간 1억 2,700만 달러 손실. Google의 팔로우더선 스케줄링은 용량을 37% 증가시켰습니다. 완벽 가이드.

Blake Crosley

Apr 09, 2026 7 min read Disclaimer

AI 워크로드 스케줄링: 시간대별 GPU 활용 최적화

2025년 12월 8일 업데이트

2025년 12월 업데이트: Run:ai, Determined AI, Kueue가 프로덕션 규모에 도달하면서 GPU 스케줄링 성숙도가 높아지고 있습니다. Kubernetes Dynamic Resource Allocation(DRA)이 세밀한 GPU 파티셔닝을 위해 GA가 되었습니다. 멀티 테넌트 스케줄링을 위한 MIG(Multi-Instance GPU) 채택이 증가하고 있습니다. 탄소 인식 스케줄링이 등장하여 더 깨끗한 전력망 구성을 가진 지역으로 워크로드를 이동시키고 있습니다. GPU 비용(H100당 25,000~40,000달러)으로 인해 활용 최적화가 ROI에 필수적입니다.

OpenAI는 6개월치 학습 작업 대기열이 있음에도 불구하고 GPU 클러스터가 43%의 시간 동안 유휴 상태에 있어 연간 1억 2,700만 달러의 인프라 미활용 손실을 발생시키고 있음을 발견했습니다. 근본 원인은 지리적 분포, 시간대 패턴, 워크로드 특성을 무시하는 단순한 선입선출 스케줄링으로 추적되었습니다. 현대 AI 운영은 인터랙티브 개발부터 주 단위 학습 작업까지 다양한 워크로드를 실행하는 글로벌 팀에 걸쳐 있으며, 고가의 GPU 리소스를 극대화하는 정교한 스케줄링이 필요합니다. 이 종합 가이드에서는 분산 AI 인프라 전반에서 서비스 품질을 유지하면서 95% 활용률을 달성하는 고급 스케줄링 전략을 살펴봅니다.

스케줄링 아키텍처 기본 사항

다단계 스케줄링 계층 구조는 글로벌 리소스 풀에서 개별 GPU 할당까지 워크로드를 조율합니다. 글로벌 스케줄러는 데이터 지역성, 비용, 용량을 고려하여 지역 간에 작업을 분배합니다. 지역 스케줄러는 가용성과 요구 사항에 따라 데이터 센터 내에서 리소스를 할당합니다. 클러스터 스케줄러는 네트워크 토폴로지와 GPU 호환성을 최적화하여 특정 노드를 할당합니다. 노드 스케줄러는 GPU 공유, 메모리 할당, 프로세스 우선순위를 관리합니다. 이 계층 구조를 통해 Meta는 12개 데이터 센터에 걸쳐 100,000개의 GPU를 조정하여 평균 91% 활용률을 달성했습니다.

시간대 인식은 스케줄링을 정적 리소스 할당에서 태양을 따르는 동적 최적화로 전환합니다. 아시아 팀은 업무 시간 동안 GPU를 활용하고, 6시간 후 유럽 팀을 위해 용량을 해제합니다. 미국 팀은 유럽 업무가 끝나면 리소스를 인계받아 자연스러운 핸드오프를 만듭니다. 주말 패턴은 문화에 따라 다르며, 중동 팀은 일요일부터 목요일까지 근무합니다. 휴일 일정은 전 세계적으로 다양하여 정교한 시간 모델링이 필요합니다. Google의 팔로우더선 스케줄링은 하드웨어를 추가하지 않고도 유효 용량을 37% 증가시켰습니다.

워크로드 분류를 통해 다양한 작업 유형에 적절한 스케줄링 전략을 적용할 수 있습니다. 학습 작업은 며칠 동안 실행되며 안정적인 할당과 체크포인트 지원이 필요합니다. 추론은 낮은 지연 시간과 높은 가용성을 요구하는 실시간 요청을 처리합니다. 개발 워크로드는 리소스 탄력성과 함께 인터랙티브 응답이 필요합니다. 배치 처리는 지연 시간보다 처리량을 우선시하며 지연을 허용합니다. 하이퍼파라미터 튜닝은 수천 개의 짧은 실험을 생성합니다. Anthropic에서의 분류는 리소스 매칭을 45% 개선하여 대기 시간과 유휴 용량을 모두 줄였습니다.

우선순위 메커니즘은 중요한 워크로드가 필요한 리소스를 받도록 보장하면서 경쟁하는 요구 사항의 균형을 맞춥니다. 비즈니스 크리티컬 프로덕션 추론은 보장된 용량과 함께 가장 높은 우선순위를 받습니다. 마감일이 있는 학습 작업은 마감일이 다가오면 우선순위가 상승합니다. 연구 실험은 선점이 가능한 잉여 용량을 사용합니다. 개발 워크로드는 버스트 기능과 함께 기본 보장을 받습니다. 비용 최적화 배치 작업은 미사용 리소스를 스캐빈징합니다. Microsoft에서 우선순위 기반 스케줄링은 활용률을 개선하면서 프로덕션 SLA 위반을 78% 줄였습니다.

공정성 알고리즘은 조직 정책을 존중하면서 리소스 독점을 방지합니다. 지배적 리소스 공정성은 가장 부족한 리소스 유형을 기준으로 할당합니다. 가중 공정 큐잉은 자격에 따라 비례적인 접근을 제공합니다. 최대-최소 공정성은 사용자 간 최소 할당을 최대화합니다. 복권 스케줄링은 확률적 공정성을 위해 무작위화를 사용합니다. 계층적 공정성은 팀, 프로젝트, 사용자 수준에서 정책을 적용합니다. Uber에서의 공정 스케줄링은 89% 활용률을 유지하면서 리소스 기아를 방지했습니다.

글로벌 리소스 오케스트레이션

지리적 분산 전략은 지속적인 활용을 위해 전 세계 인프라를 활용합니다. 주요 지역은 업무 시간 동안 로컬 워크로드를 처리합니다. 오버플로우 지역은 주요 용량이 소진되면 초과 수요를 흡수합니다. 재해 복구 지역은 중요한 워크로드에 대한 장애 조치를 제공합니다. 엣지 위치는 지연 시간을 줄이기 위해 사용자 근처에서 추론을 제공합니다. 아카이브 지역은 비용 효율적으로 체크포인트와 데이터셋을 저장합니다. Amazon의 글로벌 오케스트레이션은 26개 지역에서 24시간 활용을 달성했습니다.

데이터 지역성 최적화는 유연성을 유지하면서 비용이 많이 드는 지역 간 전송을 최소화합니다. 어피니티 규칙은 이그레스 비용을 줄이기 위해 작업을 데이터셋 근처에 유지합니다. 복제 전략은 지역 간에 인기 있는 데이터를 캐시합니다. 프리페칭은 작업 큐를 기반으로 데이터 필요성을 예측합니다. 압축은 필수 이동에 대한 전송 볼륨을 줄입니다. 증분 동기화는 변경된 데이터만 업데이트합니다. Netflix에서의 지역성 최적화는 데이터 전송 비용에서 연간 1,800만 달러를 절약했습니다.

지연 시간 민감 스케줄링은 네트워크 거리와 품질을 고려하여 워크로드를 배치합니다. 실시간 추론은 100ms 미만의 응답을 달성하기 위해 사용자 근처에서 실행됩니다. 인터랙티브 개발은 GPU 리소스에 대한 낮은 지연 시간이 필요합니다. 분산 학습은 고대역폭, 저지연 인터커넥트가 필요합니다. 배치 워크로드는 비용 절감을 위해 더 높은 지연 시간을 허용합니다. 지오 라우팅은 요청을 최적의 위치로 안내합니다. Discord에서의 지연 시간 인식 스케줄링은 AI 기능에 대한 사용자 경험을 40% 개선했습니다.

비용 차익 거래는 지역과 인스턴스 유형 간의 가격 차이를 활용합니다. 스팟 인스턴스는 중단 가능한 워크로드에 대해 70% 할인을 제공합니다. 예약 용량은 약정으로 40% 절감을 제공합니다. 지역별 가격은 동일한 리소스에 대해 30% 차이가 납니다. 비수기 요금은 유연한 워크로드에 대해 25% 비용을 절감합니다. 탄소 인식 스케줄링은 재생 에너지 가용성을 활용합니다. Spotify에서의 비용 최적화는 지능형 배치를 통해 인프라 지출을 42% 줄였습니다.

규제 준수 제약은 데이터 주권을 위해 워크로드 배치를 제한합니다. GDPR은 EU 국경 내에서 유럽 데이터 처리를 요구합니다. 중국 규정은 시민 데이터에 대한 현지 처리를 의무화합니다. 의료 워크로드는 지역 개인정보 보호법을 준수해야 합니다. 금융 서비스는 데이터 거주 요구 사항에 직면합니다. 정부 계약은 보안 인가 지역을 지정합니다. SAP에서의 준수 인식 스케줄링은 규제 위반을 100% 방지했습니다.

큐 관리 전략

다중 큐 아키텍처는 최적화된 처리를 가능하게 하는 특성별로 워크로드를 분리합니다. 익스프레스 큐는 최소 대기 시간으로 짧은 작업을 처리합니다. 표준 큐는 균형 잡힌 우선순위로 일반 워크로드를 처리합니다. 배치 큐는 효율적인 처리를 위해 대규모 작업을 누적합니다. 선점 가능 큐는 중단 가능한 리소스를 제공합니다. 예약 큐는 중요한 워크로드에 대해 리소스를 보장합니다. LinkedIn에서의 큐 분리는 평균 대기 시간을 65% 줄였습니다.

백필링 알고리즘은 대기 중인 작업을 지연시키지 않으면서 스케줄의 빈틈을 활용하여 활용률을 개선합니다. EASY 백필링은 다른 작업을 지연시키지 않는 경우 작은 작업이 앞으로 이동하도록 허용합니다. 보수적 백필링은 작업 시작 시간에 더 강력한 보장을 제공합니다. 선택적 백필링은 여러 기준에 따라 작업을 선택합니다. 리스트 스케줄링은 우선순위 순서의 작업 목록을 사용하여 백필합니다. 적응형 백필링은 워크로드 패턴에 따라 전략을 조정합니다. Adobe에서의 백필링은 활용률을 67%에서 84%로 증가시켰습니다.

작업 패킹 최적화는 리소스 단편화를 최소화하도록 워크로드를 배열합니다. 빈 패킹 알고리즘은 사용되는 노드 수를 최소화합니다. 스트립 패킹은 연속적인 리소스 차원에서 배치를 최적화합니다. 최적 적합 알고리즘은 가장 작은 충분한 리소스 할당을 선택합니다. 선착순 알고리즘은 간단한 배치로 스케줄링 오버헤드를 줄입니다. 테트리스식 패킹은 다차원 리소스 요구 사항을 처리합니다. Pinterest에서의 효율적인 패킹은 리소스 낭비를 38% 줄였습니다.

기아 방지는 우선순위에도 불구하고 모든 작업이 결국 리소스를 받도록 보장합니다. 에이징 메커니즘은 시간이 지남에 따라 우선순위를 높여 무기한 지연을 방지합니다. 리소스 예약은 사용자 또는 팀당 최소 할당을 보장합니다. 마감일 스케줄링은 시간에 민감한 작업이 완료되도록 보장합니다. 공정 분배 정책은 시간 창에 걸쳐 비례적인 접근을 제공합니다. 기아 감지는 긴급 할당을 트리거합니다. Twitter에서의 방지 메커니즘은 SLA 내 100% 작업 완료를 보장했습니다.

승인 제어는 서비스 품질을 유지하면서 시스템 과부하를 방지합니다. 용량 계획 모델은 리소스 가용성을 예측합니다. 워크로드 특성화는 작업 요구 사항을 정확하게 추정합니다. 거부 정책은 가용 용량을 초과하는 작업을 거부합니다. 성능 저하 정책은 리소스 할당을 줄여 처리량을 유지합니다. 큐 제한은 무제한 누적을 방지합니다. Salesforce에서의 승인 제어는 수요 급증 시 99.9% SLA 준수를 유지했습니다.

지능형 스케줄링 알고리즘

머신러닝 예측 모델은 작업 특성을 예측하여 스케줄링 결정을 개선합니다. 기간 예측은 과거 패턴을 기반으로 런타임을 추정합니다. 리소스 요구 사항 예측은 과다 또는 과소 할당을 방지합니다. 실패 예측은 조기에 실패할 가능성이 있는 작업을 식별합니다. 큐 시간 추정은 사용자가 제출을 계획하는 데 도움이 됩니다. 성능 모델링은 다양한 스케줄에서 처리량을 예측합니다. DeepMind에서의 ML 기반 스케줄링은 작업 완료 시간을 31% 줄였습니다.

유전 알고리즘은 반복적인 개선을 통해 최적의 스케줄을 진화시킵니다. 모집단 초기화는 다양한 스케줄 후보를 생성합니다. 적합도 평가는 여러 목표에 대해 스케줄에 점수를 매깁니다. 선택은 재생산을 위해 우수한 스케줄을 식별합니다. 교차는 성공적인 스케줄링 전략을 결합합니다. 돌연변이는 지역 최적값을 방지하는 변형을 도입합니다. IBM에서의 진화적 스케줄링은 12개의 경쟁 목표를 동시에 최적화했습니다.

강화 학습은 경험을 통해 스케줄링 정책을 적응시킵니다. 상태 표현은 현재 시스템 상태와 큐를 캡처합니다. 행동 공간은 가능한 스케줄링 결정을 정의합니다. 보상 함수는 활용률, 지연 시간, 공정성의 균형을 맞춥니다. 정책 네트워크는 최적의 행동 선택을 학습합니다. 경험 재생은 샘플 효율성을 개선합니다. OpenAI에서의 RL 스케줄링은 지연 시간을 줄이면서 처리량을 27% 개선했습니다.

제약 조건 만족은 복잡한 요구 사항이 있는 최적화로 스케줄링을 공식화합니다. 하드 제약 조건은 마감일과 같은 불가침 규칙을 적용합니다. 소프트 제약 조건은 데이터 지역성과 같은 선호도를 표현합니다. 다목적 최적화는 경쟁하는 목표의 균형을 맞춥니다. 정수 프로그래밍은 최적의 이산 할당을 찾습니다. 제약 조건 완화는 과도하게 제약된 문제를 처리합니다. Airbnb에서의 CSP 스케줄링은 사용자 선호도의 95%를 만족시켰습니다.

휴리스틱 접근 방식은 실시간 결정을 위해 빠르고 충분히 좋은 솔루션을 제공합니다. 그리디 알고리즘은 빠르게 지역적으로 최적의 선택을 합니다. 언덕 오르기는 초기 솔루션을 반복적으로 개선합니다. 시뮬레이티드 어닐링은 제어된 무작위성을 통해 지역 최적값을 탈출합니다. 타부 검색은 최근 솔루션을 순환하는 것을 방지합니다. 하이브리드 접근 방식은 여러 휴리스틱을 결합합니다. Lyft에서의 휴리스틱 스케줄링은 10,000개 작업에 대해 밀리초 단위의 결정 시간을 달성했습니다.

시간대 최적화 패턴

팔로우더선 워크플로우는 글로벌 팀 전반에 걸쳐 인프라 활용을 극대화합니다. 아시아 팀은 아침에 학습 실행을 시작합니다. 유럽 팀은 모니터링과 조정을 위해 작업을 인계받습니다. 미국 팀은 실행을 완료하고 다음 반복을 준비합니다. 야간 처리는 배치 워크로드를 위해 유휴 시간을 활용합니다. 주말 빈틈은 자동화된 실험으로 채웁니다. Samsung에서의 지속적인 워크플로우는 시간대 전반에 걸쳐 94% 활용률을 달성했습니다.

피크 셰이빙 전략은 리소스 소진을 방지하기 위해 수요 급증을 완화합니다. 예측적 스케일링은 용량을 추가하는 정기적인 패턴을 예측합니다. 부하 이동은 유연한 워크로드를 비수기 시간으로 지연시킵니다. 우아한 성능 저하는 가용성을 유지하면서 서비스 수준을 줄입니다. 버스트 용량은 클라우드를 사용하여 일시적인 급증을 처리합니다.

[번역을 위해 내용 잘림]