본문 바로가기
728x90
반응형

NVIDIA11

[NVIDIA] Cuda Toolkit 설치 # nvidia-smiThu Oct 17 16:23:44 2024+-----------------------------------------------------------------------------------------+| NVIDIA-SMI 550.54.14 Driver Version: 550.54.14 CUDA Version: 12.4 ||-----------------------------------------+------------------------+----------------------+| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC.. 2024. 10. 22.
[NVIDIA] In use by another client(프로세스 충돌) ERR 로그# nvidia-smi --gpu-resetThe following GPUs could not be reset: GPU 00000000:B8:00.0: In use by another client1 device is currently being used by one or more other processes (e.g., Fabric Manager, CUDA application, graphics application such as an X server, or a monitoring application such as another instance of nvidia-smi). Please first kill all processes using this device and all compute .. 2024. 10. 18.
[NVIDIA] MIG(Multi-Instance-GPU) Docker 컨테이너에 할당 1. MIG 활성화확인(비활성화 되어 있음)# nvidia-smiWed Jul 31 10:57:26 2024 +-----------------------------------------------------------------------------------------+| NVIDIA-SMI 550.90.07 Driver Version: 550.90.07 CUDA Version: 12.4 ||-----------------------------------------+------------------------+----------------------+| GPU Name Persistence-M | Bus-Id .. 2024. 8. 3.
[NVIDIA] MIG(Multi-Instance-GPU) 설정 및 생성 삭제 MIG 설정 순서MIG 활성화GPU Instance(GI) 생성Compute Instance(CI) 생성MIG 활성화 전 확인# nvidia-smiMIG 활성화 /비활성화nvidia-smi -i [활성화할 GPU 번호] -mig [0/1 비활성화 / 활성화]5번 GPU 활성화# nvidia-smi -i 5 -mig 10번 GPU 비활성화# nvidia-smi -i 0 -mig 0활성화 / 비활성화 후 GPU 리셋# nvidia-smi --gpu-reset# nvidia-smiMIG 프로필 확인GPU : 각 GPU 당 7개씩 MIG 나누어진 것 확인Instance Free / Total : GI 생성 가능 개수 확인Memory GIB 유의해서 원하는 만큼 활성화 시키기# nvidia-smi mig -lgi.. 2024. 8. 2.
[NVIDIA] MIG 활용시 배포 및 시스템 고려 사항 배포 고려 사항MIG 기능은 NVIDIA GPU 드라이버의 일부로 제공된다.H100 GPU는 CUDA 12/R525 드라이버부터 지원A100 및 A30 GPU는 CUDA 11/R450 드라이버부터 지원시스템 고려사항지원되는 운영체제 : CUDA 에서 지원하는 Linux 운영체제 배포판에서만 지원됨장치 노드 접근 : ./proc시스템 수준 인터페이스 대신, /dev cgroup을 통해 MIG 장치의 액세스 메커니즘을 제어하는 것이 권장됩니다. 이 기능은 450.80.02+ 드라이버부터 사용할 수 있습니다.지원되는 구성컨테이너를 포함한 베어메탈 환경지원되는 하이퍼바이저 위의 Linux 게스트에 대한 GPU 패스스루 가상화지원되는 하이퍼바이저 위의 vGPU지원되는 MIG 프로필A30 MIG 프로필A100 MI.. 2024. 8. 1.
[NVIDIA] MIG를 활용한 고성능 컴퓨팅 환경 구축 1. Kubernetes & MIGKubernetes는 컨테이너화된 애플리케이션의 배포, 확장, 관리를 자동화하는 오픈 소스 플랫폼입니다. MIG와 Kubernetes를 통합하면 다음과 같은 이점을 얻을 수 있습니다:리소스 최적화: Kubernetes의 자원 할당 기능과 MIG의 인스턴스 분할 기능을 결합하여 GPU 자원을 최적화할 수 있습니다.유연한 스케줄링: Kubernetes의 스케줄러를 사용하여 다양한 크기의 MIG 인스턴스를 필요에 따라 유연하게 할당할 수 있습니다.자동화된 관리: Kubernetes의 오토스케일링과 자원 모니터링 기능을 통해 GPU 사용량을 자동으로 관리하고 최적화할 수 있습니다.1.1 Kubernetes 설정 예시Kubernetes 노드 설정: 각 노드에서 NVIDIA 드라이.. 2024. 7. 31.
[NVIDIA] NVIDIA Multi-Instance GPU (MIG) 개요 및 가이드 1. MIG 정의 및 개요NVIDIA의 Multi-Instance GPU (MIG) 기술은 고성능 컴퓨팅 환경에서 GPU 리소스를 효율적으로 분할하여 사용할 수 있도록 하는 혁신적인 기술입니다. 이 블로그에서는 MIG의 개요, 지원되는 GPU, 주요 용어, 및 지원 장치 이름 등을 다루겠습니다.1.1 MIG 사용의 주요 목적고성능 분할 : 하나의 물리적 GPU를 여러 개의 독립적인 가상 GPU 인스턴스로 분할하여 다양한 워크로드를 병렬로 처리할 수 있습니다. 리소스 최적화 : 필요에 따라 다양한 크기의 인스턴스를 생성하여 자원 사용의 유연성을 제공합니다. 보안성 및 안정성 : 각 인스턴스가 하드웨어 수준에서 격리되어 있어, 하나의 인스턴스에서 발생한 문제가 다른 인스턴스에 영향을 미치지 않습니다. 클라우.. 2024. 7. 30.
[NVIDIA] CUDA Driver 설치 Cuda Version Check# nvidia-smi Wed Jun 19 18:09:47 2024 +-----------------------------------------------------------------------------+| NVIDIA-SMI 470.239.06 Driver Version: 470.239.06 CUDA Version: 11.4 ||-------------------------------+----------------------+----------------------+| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf P.. 2024. 7. 29.
[NVIDIA] GPU Passthrough GPU Passthrough 설정하기GPU Passthrough는 가상화 환경에서 물리적 GPU를 가상 머신에 직접 할당하는 기술입니다. 이는 GPU의 모든 성능을 가상 머신에서 활용할 수 있게 하여, 높은 성능이 요구되는 그래픽 작업이나 계산 작업을 가상 환경에서도 가능하게 합니다. 이 블로그에서는 Rocky Linux 8에서 NVIDIA GPU Passthrough를 설정하는 방법에 대해 설명하겠습니다.1. grub 설정GPU Passthrough 설정의 첫 단계는 Grub 설정을 변경하여 IOMMU를 활성화하는 것입니다.1.1 grub 파일 수정GRUB_CMDLINE_LINUX 라인에 intel_iommu=on을 추가합니다:# vi /etc/default/grubGRUB_CMDLINE_LINUX=".. 2024. 6. 28.
728x90
반응형