AI를 위한 관측성: GPU 모니터링을 위한 DataDog, New Relic, Splunk 구현
2025년 12월 8일 업데이트
2025년 12월 업데이트: Datadog, New Relic, Dynatrace 모두 네이티브 NVIDIA DCGM 통합을 추가하고 있습니다. GPU 전용 대시보드가 이제 표준 제공 사항입니다. OpenTelemetry GPU 메트릭 사양이 성숙 단계에 접어들었습니다. LLM 관측성(토큰 처리량, 지연 시간 백분위수, 요청당 비용)이 표준화되고 있습니다. AIOps 플랫폼이 ML을 활용하여 GPU 장애를 예측합니다. vLLM과 TensorRT-LLM이 풍부한 관측성 메트릭을 제공합니다.
Tesla의 Dojo 슈퍼컴퓨터는 17일에 걸쳐 5,000개 GPU에서 400TB의 시스템 메모리를 소비한 조용한 메모리 누수로 인해 중요한 자율주행 모델 훈련 중 충돌했습니다. 3,100만 달러의 손실을 초래한 이 장애는 치명적인 공백을 드러냈습니다—기존 모니터링은 정상 메트릭을 표시했지만 분산 추적은 몇 시간 내에 누수를 발견했을 것입니다. 현대 AI 인프라는 매일 50TB의 텔레메트리 데이터를 생성하며, 수천 개의 GPU에 걸쳐 메트릭, 트레이스, 로그를 상관시키는 정교한 관측성 플랫폼이 필요합니다. 이 종합 가이드는 DataDog, New Relic, Splunk를 사용하여 AI 인프라 동작에 대한 완전한 가시성을 달성하기 위한 엔터프라이즈 관측성 솔루션 구현을 살펴봅니다.
AI 인프라를 위한 관측성 기초
관측성의 세 가지 축은 기존 모니터링을 넘어 복잡한 GPU 클러스터에 대한 포괄적인 가시성을 제공합니다. 메트릭은 시스템 상태의 정량적 측정을 제공합니다—GPU 사용률이 94%에 도달하고, 메모리 대역폭이 1.8TB/s를 소비하거나, 훈련 손실이 0.03으로 감소합니다. 트레이스는 분산 시스템을 통해 요청을 추적하며, API 게이트웨이에서 모델 서빙을 거쳐 GPU 실행까지 추론 호출을 추적합니다. 로그는 커널 실행부터 오류 메시지까지 모든 것을 기록하는 상세한 이벤트와 컨텍스트를 캡처합니다. 이 세 가지 축이 함께 작동하여 Microsoft는 Azure AI 인프라 전반에서 평균 탐지 시간을 4시간에서 7분으로 단축할 수 있었습니다.
분산 추적은 훈련 작업이 여러 데이터 센터에 걸쳐 수천 개의 GPU에 걸쳐 있을 때 필수적이 됩니다. 각 순전파는 데이터 로딩, 전처리, GPU 연산, 그래디언트 동기화를 추적하는 스팬을 생성합니다. 트레이스 컨텍스트 전파는 서비스 경계와 프로세스 재시작을 통해 요청 ID를 유지합니다. 샘플링 전략은 가시성과 오버헤드 사이의 균형을 맞추며, 일반적으로 프로덕션 트레이스의 1%를 캡처하고 오류는 100% 샘플링합니다. 상관 ID는 트레이스를 로그 및 메트릭과 연결하여 빠른 근본 원인 분석을 가능하게 합니다. OpenAI의 분산 추적은 훈련 시간의 23%가 느린 노드를 기다리는 데 소비된다는 것을 밝혀냈고, 이로 인한 최적화로 처리량이 18% 향상되었습니다.
AI 규모의 로그 집계는 이기종 소스에서 초당 수백만 개의 이벤트를 처리해야 합니다. GPU 드라이버 로그는 하드웨어 오류와 성능 카운터를 노출합니다. PyTorch와 TensorFlow의 프레임워크 로그는 훈련 역학을 캡처합니다. 애플리케이션 로그는 모델 서빙과 비즈니스 로직을 추적합니다. 시스템 로그는 커널 패닉부터 네트워크 타임아웃까지 인프라 문제를 드러냅니다. 일관된 스키마를 가진 구조화된 로깅은 효율적인 파싱과 상관관계를 가능하게 합니다. Anthropic은 매일 80억 개의 로그 라인을 처리하며, 이를 사용하여 사용자가 보고하기 전에 67%의 문제를 식별하고 해결합니다.
메트릭 상관관계는 인프라 측정을 애플리케이션 동작 및 비즈니스 결과와 연결합니다. GPU 온도 급등은 훈련 처리량을 감소시키는 스로틀링 이벤트와 상관관계가 있습니다. 메모리 단편화 패턴은 메모리 부족 장애를 몇 시간 전에 예측합니다. 네트워크 혼잡은 수렴에 영향을 미치는 그래디언트 동기화 지연과 연결됩니다. 전력 소비 이상은 유지보수가 필요한 하드웨어 저하를 나타냅니다. 이러한 상관관계는 Meta에서 근본 원인을 즉시 식별하여 문제 해결 시간을 72% 단축했습니다.
컨텍스트 전파는 여러 서비스와 인프라 레이어에 걸쳐 분산된 AI 시스템 전반에서 관측성을 유지합니다. 트레이스 헤더는 HTTP 요청, gRPC 호출, 메시지 큐를 통해 흐릅니다. 배기지 항목은 애플리케이션 코드를 수정하지 않고 디버깅 컨텍스트를 전달합니다. 예시는 메트릭을 조사를 위한 특정 트레이스 인스턴스와 연결합니다. 상관 행렬은 관측성 축 전반에서 관련 텔레메트리를 연결합니다. 이 컨텍스트를 통해 Uber는 모바일 앱에서 에지 서버를 거쳐 GPU 클러스터까지 추론 요청을 추적하여 지연 시간을 40% 개선하는 병목 현상을 식별할 수 있었습니다.
GPU 클러스터를 위한 DataDog 구현
에이전트 배포 전략은 이기종 AI 인프라 전반의 커버리지와 오버헤드를 결정합니다. 호스트 기반 에이전트는 각 GPU 노드에서 실행되어 시스템 메트릭과 로그를 수집합니다. 컨테이너 에이전트는 Kubernetes 파드를 모니터링하는 사이드카로 배포됩니다. 클러스터 에이전트는 API 부하를 줄이는 메트릭을 집계합니다. 클라우드 API를 통한 에이전트리스 수집은 백업 가시성을 제공합니다. Lambda 확장은 서버리스 훈련 작업을 캡처합니다. Airbnb의 DataDog 에이전트는 최적화된 수집 간격을 통해 2% 미만의 CPU 오버헤드로 10,000개의 GPU를 모니터링합니다.
GPU 통합 구성은 기본 사용률을 넘어 상세한 하드웨어 메트릭을 노출합니다. NVIDIA 통합은 SM 활동, 메모리 컨트롤러 부하, NVLink 처리량을 포함하여 DCGM을 통해 200개 이상의 메트릭을 수집합니다. 커스텀 메트릭은 배치 처리 시간 및 체크포인트 기간과 같은 프레임워크별 측정을 추적합니다. SLURM 및 Kubernetes와의 통합은 워크로드 귀속을 제공합니다. 자동 검색은 인프라가 확장됨에 따라 새로운 GPU를 식별합니다. 이 포괄적인 통합은 Coinbase가 훈련 속도를 제한하는 메모리 대역폭 병목 현상을 식별하는 데 도움이 되었습니다.
커스텀 메트릭과 APM 통합은 인프라 모니터링과 애플리케이션 성능을 연결합니다. 훈련 루프는 손실, 정확도, 그래디언트 통계를 DataDog에 직접 보고합니다. 모델 서빙 엔드포인트는 추론 지연 시간 백분위수와 요청 큐잉을 추적합니다. 분산 훈련 스팬은 GPU 간 통신 오버헤드를 캡처합니다. 추론당 비용과 같은 비즈니스 메트릭은 경제적 가시성을 제공합니다. 이러한 커스텀 메트릭을 통해 Instacart는 추천 모델을 최적화하여 인프라 비용을 34% 절감했습니다.
머신러닝 모니터링 기능은 프로덕션에서 모델 성능과 데이터 품질을 추적합니다. 드리프트 감지는 프로덕션 데이터가 훈련 분포에서 벗어날 때 이를 식별합니다. 성능 저하 알림은 모델 정확도가 감소할 때 발생합니다. 특성 중요도 추적은 어떤 입력이 예측을 주도하는지 밝힙니다. A/B 테스트 메트릭은 모델 버전을 비교합니다. 데이터 품질 검사는 입력을 검증하여 쓰레기 입력-쓰레기 출력 시나리오를 방지합니다. Stripe의 ML 모니터링은 고객 영향 전에 모델 저하를 감지하여 12건의 프로덕션 인시던트를 방지했습니다.
라이브 디버깅 기능은 문제를 재현하지 않고도 실시간 조사를 가능하게 합니다. 지속적인 프로파일러는 프로덕션 GPU 워크로드에서 CPU 및 메모리 프로파일을 캡처합니다. 동적 계측은 코드 변경이나 재시작 없이 로그 라인을 추가합니다. 오류 추적은 자동 그룹화 및 중복 제거와 함께 예외를 집계합니다. 실제 사용자 모니터링은 인프라 문제와 사용자 경험 영향을 상관시킵니다. 이러한 기능은 Square에서 복잡한 분산 훈련 장애에 대한 디버깅 시간을 65% 단축했습니다.
New Relic 플랫폼 구성
풀스택 관측성은 GPU 인프라를 애플리케이션 동작 및 사용자 경험과 연결합니다. 인프라 에이전트는 GPU 노드, 네트워크, 스토리지 시스템을 모니터링합니다. APM 에이전트는 훈련 프레임워크와 모델 서빙 애플리케이션을 계측합니다. 브라우저 모니터링은 웹 애플리케이션에서 모델 추론을 추적합니다. 모바일 모니터링은 디바이스에서 에지 AI 성능을 캡처합니다. 합성 모니터링은 엔드투엔드 AI 파이프라인을 검증합니다. 이 포괄적인 가시성을 통해 Walmart는 훈련부터 추론까지 전체 AI 스택을 최적화할 수 있었습니다.
AI 모니터링 기능은 머신러닝 워크로드에 대한 전문화된 가시성을 제공합니다. 모델 성능 추적은 정확도, 지연 시간, 처리량 메트릭을 모니터링합니다. 훈련 작업 인사이트는 손실 곡선, 학습률, 수렴 패턴을 캡처합니다. 추론 모니터링은 예측 분포와 신뢰도 점수를 추적합니다. 파이프라인 모니터링은 전처리, 훈련, 배포 단계를 통해 데이터를 추적합니다. 자동화된 이상 감지는 조사가 필요한 비정상적인 패턴을 식별합니다. New Relic의 AI 모니터링은 Chegg가 병목 현상 식별을 통해 모델 훈련 시간을 40% 단축하는 데 도움이 되었습니다.
Kubernetes 통합은 컨테이너화된 GPU 워크로드에 대한 심층적인 가시성을 제공합니다. 클러스터 탐색기는 GPU 노드 전반의 파드 배치를 시각화합니다. 리소스 할당 추적은 효율적인 GPU 사용을 보장합니다. 서비스 맵은 훈련 작업과 지원 서비스 간의 종속성을 드러냅니다. 이벤트 상관관계는 Kubernetes 이벤트를 성능 영향과 연결합니다. 자동 계측은 코드 변경 없이 모니터링을 단순화합니다. 이 통합을 통해 Robinhood는 더 나은 배치 전략을 통해 GPU 사용률을 55%에서 78%로 높일 수 있었습니다.
Applied Intelligence 기능은 AIOps를 통해 인시던트 감지 및 해결을 가속화합니다. 이상 감지는 정상 패턴을 학습하고 편차가 발생하면 알림을 보냅니다. 인시던트 인텔리전스는 알림을 상관시켜 노이즈를 85% 줄입니다. 근본 원인 분석은 과거 패턴을 기반으로 가능한 원인을 제안합니다. 사전 감지는 사용자에게 영향을 미치기 전에 문제를 식별합니다. 자동화된 복구는 일반적인 문제에 대한 런북을 트리거합니다. 이러한 기능은 DoorDash에서 GPU 클러스터 인시던트에 대한 평균 해결 시간을 50% 단축했습니다.
워크로드 최적화 권장 사항은 AI 인프라 전반의 효율성 개선을 식별합니다. 적정 크기 조정 제안은 성능을 유지하면서 과잉 프로비저닝을 방지합니다. 스케줄링 최적화는 더 나은 작업 배치를 통해 유휴 시간을 줄입니다. 비용 할당은 팀, 프로젝트, 모델별 지출을 추적합니다. 용량 예측은 미래 인프라 요구 사항을 예측합니다. 성능 벤치마킹은 다양한 GPU 유형 간의 효율성을 비교합니다. 최적화 인사이트는 향상된 리소스 활용을 통해 Lyft에서 연간 230만 달러를 절감했습니다.
Splunk Enterprise 배포
데이터 수집 아키텍처는 전문화된 설계가 필요한 GPU 클러스터의 대량 데이터를 처리합니다. 헤비 포워더는 로그를 전처리하여 네트워크 트래픽을 60% 줄입니다. 유니버설 포워더는 GPU 노드에서 경량 수집을 제공합니다. HTTP Event Collector는 애플리케이션에서 직접 메트릭 제출을 가능하게 합니다. Syslog 수집은 네트워크 장치 및 스토리지 시스템 로그를 캡처합니다. 파일 모니터링은 훈련 로그와 모델 출력을 감시합니다. Apple의 Splunk 배포는 머신러닝 연구를 지원하는 AI 인프라에서 매일 5PB를 수집합니다.
인덱스 전략 최적화는 검색 성능, 스토리지 비용, 보존 요구 사항의 균형을 맞춥니다. Hot/warm/cold 티어링은 빠른 검색을 위해 최근 데이터를 SSD에 배치합니다. 인덱스 타임 필드 추출은 일반적인 쿼리를 가속화합니다. 커스텀 인덱스는 접근 제어를 위해 워크로드 유형을 분리합니다. 보존 정책은 규정 준수 및 디버깅 요구 사항과 일치합니다. 인덱스 복제는 중요한 데이터에 대한 고가용성을 제공합니다. eBay의 전략적 인덱싱은 스토리지 비용을 40% 절감하면서 검색 시간을 70% 단축했습니다.
SPL 쿼리 개발은 비정형 GPU 텔레메트리 데이터에서 인사이트를 추출합니다. 정규 표현식은 다양한 프레임워크의 커스텀 로그 형식을 파싱합니다. 통계 함수는 메트릭 패턴의 이상을 식별합니다. 머신러닝 명령은 유사한 오류를 자동으로 클러스터링합니다. 상관 검색은 시간과 시스템 전반에서 이벤트를 연결합니다. 서브서치는 복잡한 다단계 분석을 가능하게 합니다. PayPal의 고급 SPL 쿼리는 이전에 감지되지 않았던 훈련 작업의 0.1%에 영향을 미치는 간헐적인 GPU 장애를 식별했습니다.
Machine Learning Toolkit 애플리케이션은 AI 인프라를 위한 고급 분석을 제공합니다. 예측 분석은 72시간 전에 GPU 장애를 예측합니다. 클러스터링 알고리즘은 근본 원인 분석을 위해 유사한 오류 패턴을 그룹화합니다. 이상 감지는 비정상적인 리소스 소비 패턴을 식별합니다. 용량 계획 모델은 인프라 요구 사항을 예측합니다. 성능 예측은 새로운 모델의 훈련 시간을 추정합니다. ML 기반 분석은 예측 유지보수를 통해 Target에서 계획되지 않은 다운타임을 43% 줄였습니다.
ITSI 구현은 복잡한 AI 인프라의 서비스 중심 뷰를 생성합니다. 서비스 정의는 GPU, 스토리지,
[번역을 위해 콘텐츠 생략]