본문 바로가기
728x90
반응형

전체 글217

[NVIDIA] MIG 활용시 배포 및 시스템 고려 사항 배포 고려 사항MIG 기능은 NVIDIA GPU 드라이버의 일부로 제공된다.H100 GPU는 CUDA 12/R525 드라이버부터 지원A100 및 A30 GPU는 CUDA 11/R450 드라이버부터 지원시스템 고려사항지원되는 운영체제 : CUDA 에서 지원하는 Linux 운영체제 배포판에서만 지원됨장치 노드 접근 : ./proc시스템 수준 인터페이스 대신, /dev cgroup을 통해 MIG 장치의 액세스 메커니즘을 제어하는 것이 권장됩니다. 이 기능은 450.80.02+ 드라이버부터 사용할 수 있습니다.지원되는 구성컨테이너를 포함한 베어메탈 환경지원되는 하이퍼바이저 위의 Linux 게스트에 대한 GPU 패스스루 가상화지원되는 하이퍼바이저 위의 vGPU지원되는 MIG 프로필A30 MIG 프로필A100 MI.. 2024. 8. 1.
[NVIDIA] MIG를 활용한 고성능 컴퓨팅 환경 구축 1. Kubernetes & MIGKubernetes는 컨테이너화된 애플리케이션의 배포, 확장, 관리를 자동화하는 오픈 소스 플랫폼입니다. MIG와 Kubernetes를 통합하면 다음과 같은 이점을 얻을 수 있습니다:리소스 최적화: Kubernetes의 자원 할당 기능과 MIG의 인스턴스 분할 기능을 결합하여 GPU 자원을 최적화할 수 있습니다.유연한 스케줄링: Kubernetes의 스케줄러를 사용하여 다양한 크기의 MIG 인스턴스를 필요에 따라 유연하게 할당할 수 있습니다.자동화된 관리: Kubernetes의 오토스케일링과 자원 모니터링 기능을 통해 GPU 사용량을 자동으로 관리하고 최적화할 수 있습니다.1.1 Kubernetes 설정 예시Kubernetes 노드 설정: 각 노드에서 NVIDIA 드라이.. 2024. 7. 31.
[NVIDIA] NVIDIA Multi-Instance GPU (MIG) 개요 및 가이드 1. MIG 정의 및 개요NVIDIA의 Multi-Instance GPU (MIG) 기술은 고성능 컴퓨팅 환경에서 GPU 리소스를 효율적으로 분할하여 사용할 수 있도록 하는 혁신적인 기술입니다. 이 블로그에서는 MIG의 개요, 지원되는 GPU, 주요 용어, 및 지원 장치 이름 등을 다루겠습니다.1.1 MIG 사용의 주요 목적고성능 분할 : 하나의 물리적 GPU를 여러 개의 독립적인 가상 GPU 인스턴스로 분할하여 다양한 워크로드를 병렬로 처리할 수 있습니다. 리소스 최적화 : 필요에 따라 다양한 크기의 인스턴스를 생성하여 자원 사용의 유연성을 제공합니다. 보안성 및 안정성 : 각 인스턴스가 하드웨어 수준에서 격리되어 있어, 하나의 인스턴스에서 발생한 문제가 다른 인스턴스에 영향을 미치지 않습니다. 클라우.. 2024. 7. 30.
[NVIDIA] CUDA Driver 설치 Cuda Version Check# nvidia-smi Wed Jun 19 18:09:47 2024 +-----------------------------------------------------------------------------+| NVIDIA-SMI 470.239.06 Driver Version: 470.239.06 CUDA Version: 11.4 ||-------------------------------+----------------------+----------------------+| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf P.. 2024. 7. 29.
[Rocky linux 8] KVM 복사 KVM Copy복제를 위한 가상머신 준비1. 가상 머신 설정복제 또는 템플릿에 사용할 가상 머신을 빌드합니다. 복제본에 필요한 소프트웨어를 설치합니다. 운영 체제에 대해 고유하지 않은 설정을 구성합니다. 고유하지 않은 애플리케이션 설정을 구성합니다.2. 네트워크 구성 제거udev 규칙이 제거되지 않으면 첫 번째 NIC 이름이 eth0 대신 eth1일 수 있습니다. rm -f /etc/udev/rules.d/69-vdo-start-by-dev.rules3. 가상머신 목록 확인가상머신은 종료되어 있는 상태에서만 복사가 가능하다.# virsh list --all Id Name State-------------------------------------- 15 windows.. 2024. 7. 22.
[Rocky linux 8] KVM에서 window10 가상 머신 명령어로 생성 dnf install -y virt-viewer명령어로 KVM 생성사전 작업virt-viewer 설치(선택 사항)가상 머신에 연결하기 위해 virt-viewer를 설치할 수 있습니다.Linux에서 명령어로 KVM window 가상 머신 생성virt-install \--name windows-virtio-test \--os-variant win10 \--memory 4096 \--vcpus 4 \--cdrom '/1.ISO/4.win/Win10_22H2_Korean_x64_x86_v2(19045.2965).iso' \--disk path=/1.ISO/5.virtio/virtio-win-0.1.240.iso,device=cdrom \--disk path=/var/lib/libvirt/images/window.. 2024. 7. 18.
[Rocky linux 8] PXE할 서버 지정하기 같은 망에서 여러 pc를 갖고 pxe를 하다보면 dhcp가 중복되어서 내가 원하는 설정이 안 불러져 오는 경우가 빈번하게 있다. 회사에서도 dhcp 로그 분석 후 그 대역대를 쓰는 사람에게 가서 꺼달라고 항상 할 순 없는 노릇이다. 그래서 Network를 활용하여서 내가 원하는 서버에만 pxe로 OS를 설치하는 법을 포스팅하려고 한다.  설정은 생각보다 간단하다. dhcpd.conf 파일만 조금 변경해주면 된다.아래는 내 설정파일 내용이다. deny unknown-clients; 라인 추가알 수 없는 클라이언트는 IP를 할당받지 않음host system1 { hardware ethernet 00:50:56:b6:df:a7; fixed-address 192.168.2.. 2024. 7. 8.
RAID 수준 이해하기: RAID 0, 1, 5, 6, 10, 01 RAID (Redundant Array of Independent Disks)은 데이터를 효율적으로 저장하고 보호하기 위한 기술입니다. 다양한 RAID 수준이 있으며, 각 수준마다 성능, 데이터 보호 및 저장 효율성이 다릅니다. 이번 글에서는 RAID 0, 1, 5, 6, 1+0, 0+1의 정의, 특성, 장단점, 사용 사례 등을 다루어보겠습니다. RAID 0: Striping정의데이터를 블록으로 나누어 각 블록을 별도의 디스크에 저장하는 방식입니다. 이를 스트라이핑이라고 합니다.특성중복성 없음: 하나의 디스크가 고장 나면 모든 데이터를 잃습니다.높은 성능: 여러 디스크를 동시에 액세스하기 때문에 읽기 및 쓰기 속도가 향상됩니다.장점모든 디스크를 사용하여 저장 용량을 극대화합니다.읽기 및 쓰기 성능이 향상.. 2024. 7. 4.
인피니밴드 드라이버 설치 매뉴얼 개요인피니밴드는 고성능 컴퓨팅(High-Performance Computing, HPC)에서 널리 사용되는 네트워킹 기술로, 빠른 데이터 전송 속도와 낮은 지연 시간을 제공합니다. 이제 설치 과정을 단계별로 살펴보겠습니다.인피니밴드 드라이버 다운로드 및 설치Mellanox OFED 드라이버를 다운로드하고 설치해야 합니다. Mellanox OFED는 Mellanox 하드웨어에서 사용할 수 있는 드라이버 패키지입니다. 최신 버전을 Mellanox 웹사이트에서 다운로드합니다.https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/ Linux InfiniBand DriversMellanox OpenFabrics Enterprise Distr.. 2024. 7. 2.
728x90
반응형