ASUS TRX50 Sage + RTX 5090 + RTX 4090/3090 다중 GPU 구성기 (Ubuntu 22.04, NVIDIA Open Kernel Module 이슈 해결)
들어가며
최근 블랙웰 아키텍처 기반 RTX 5090을 메인으로, 기존 RTX 4090과 RTX 3090 2장을 함께 사용해야 하는 작업 환경을 구성하게 되었습니다.
메인보드는 ASUS Pro WS TRX50-SAGE WIFI, CPU는 Threadripper PRO 7960X(48 PCIe lanes).
계획은 다음과 같았습니다.
- 1번 슬롯: RTX 5090
- 2번 슬롯: RTX 4090
- 4·5번 슬롯: RTX 3090 × 2
하지만 처음부터 5090이 전혀 인식되지 않는 문제가 발생했습니다.
문제 증상
- BIOS에서 4장의 GPU가 모두 보였으나,
Ubuntu 22.04 부팅 후nvidia-smi
에 5090만 나타나지 않음. lspci
에서는 정상적으로 5090(PCI ID: 10de:2b85) 확인 가능.- 드라이버를 최신(580.65.06) 프로프라이어터리로 설치해도 마찬가지.
dmesg
에 다음과 같은 에러 반복:
NVRM: The NVIDIA GPU 0000:41:00.0 (PCI ID: 10de:2b85)
NVRM: installed in this system requires use of the NVIDIA open kernel modules.
원인 분석
- RTX 5090은 최신 세대 블랙웰 GPU로, NVIDIA Open Kernel Module(OKM) 전용 지원이 필수입니다.
- 기존 방식(폐쇄형 커널 모듈)은 probe 단계에서 실패하여 장치를 초기화하지 못합니다.
- Ubuntu 22.04의 기본 PPA에는
nvidia-driver-560-open
까지만 제공 → 5090 미지원.
시도한 해결책
- BIOS 설정 점검
- CSM Disabled
- Secure Boot Disabled
- Above 4G Decoding / Resizable BAR 옵션은 BIOS에 없음
- PCIe 슬롯별 Lane 배분 및 전원(PCIE 6P, 8P) 연결 확인
- 커널 파라미터 추가
pci=realloc
부팅 옵션 적용 → PCIe MMIO 공간 재할당
- PPA 560-open 설치
- 설치 및 재부팅 후에도
probe of 0000:41:00.0 failed with error -1
- 설치 및 재부팅 후에도
결국 5090 지원이 포함된 580대 Open Kernel Module 설치가 필요하다는 결론.
최종 해결 절차
아래는 NVIDIA 공식 runfile로 580 Open Kernel Module을 설치한 과정입니다.
재부팅 후 확인
cat /proc/driver/nvidia/version # Open Kernel Module 문구 확인
nvidia-smi # 4 GPU 모두 인식
NVIDIA 580.x runfile 설치
chmod +x NVIDIA-Linux-x86_64-580.65.06.run
sudo ./NVIDIA-Linux-x86_64-580.65.06.run --dkms --kernel-module-type=open
텍스트 모드 전환
sudo systemctl isolate multi-user.target
sudo systemctl stop gdm # (사용중인 디스플레이 매니저에 맞게 변경)
Nouveau 드라이버 비활성
printf "blacklist nouveau\noptions nouveau modeset=0\n" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
sudo update-initramfs -u
커널 최신화 및 빌드 환경 준비
sudo apt install -y linux-generic-hwe-22.04
sudo apt install -y build-essential dkms linux-headers-$(uname -r)
기존 드라이버 완전 제거
sudo apt purge 'nvidia*' 'libnvidia*' 'cuda*'
sudo apt autoremove --purge -y
결과
nvidia-smi
에서 5090 + 4090 + 3090 × 2 정상 인식.- CUDA 연산 및 메모리 접근 모두 정상 동작.
- dmesg에서 더 이상
requires use of the NVIDIA open kernel modules
에러 없음.
배운 점
- 최신 세대 GPU는 드라이버 버전뿐 아니라 커널 모듈 타입이 필수 요건이 될 수 있다.
- Ubuntu LTS PPA는 최신 GPU 지원이 늦어질 수 있으므로, NVIDIA 공식 runfile 설치가 오히려 빠른 경우가 많다.
- 다중 GPU 환경에서는 BIOS의 PCIe Lane 구성, 전원 연결, MMIO 할당 여유 등을 항상 체크해야 한다.
이렇게 해서 최종 완성된 모습!
이제 vllm 서빙 시 tensor-parallel-size를 짝수로 할 수 있어 4를 도전해볼 수 있게 되었습니다!
