본문 바로가기
NVIDIA

[NVIDIA] MIG 활용시 배포 및 시스템 고려 사항

by Yoon_estar 2024. 8. 1.
728x90
반응형

배포 고려 사항

MIG 기능은 NVIDIA GPU 드라이버의 일부로 제공된다.

  • H100 GPU는 CUDA 12/R525 드라이버부터 지원
  • A100 및 A30 GPU는 CUDA 11/R450 드라이버부터 지원

시스템 고려사항

  1. 지원되는 운영체제 : CUDA 에서 지원하는 Linux 운영체제 배포판에서만 지원됨
  2. 장치 노드 접근 : ./proc시스템 수준 인터페이스 대신, /dev cgroup을 통해 MIG 장치의 액세스 메커니즘을 제어하는 것이 권장됩니다. 이 기능은 450.80.02+ 드라이버부터 사용할 수 있습니다.
  3. 지원되는 구성
    1. 컨테이너를 포함한 베어메탈 환경
    2. 지원되는 하이퍼바이저 위의 Linux 게스트에 대한 GPU 패스스루 가상화
    3. 지원되는 하이퍼바이저 위의 vGPU

지원되는 MIG 프로필

A30 MIG 프로필

A30 24GIB

A100 MIG 프로필

A100 40GIB

H100 MIG 프로필

H100 80GB
H100 94GIB
H100 96GIB

H200 MIG 프로필

H200 141GIB

납품 경험

이번 고객사에 H100 그래픽 카드가 장착된 Dell 서버를 납품하는 중 CUDA_VISIBLE_DEVICES 관련 문제 발생

>> 해당 이슈 관련하여 H100이 CUDA 11.8 nvml 지원된다는 내용을 공유함

>> 상위 CUDA 버전으로 빌드하여 새로 전달 받아 해결함

 

반응형