1. 기존 설치된 nvidia 관련 파일 삭제
우선 프로그램 추가제거에서 nvidia 관련 프로그램을 전부 삭제하고, program files 폴더에 있는 NVIDIA 관련 파일까지 모두 삭제한다.
2. CUDA Toolkit 11.3.0 버전을 다운받아 설치한다.
https://developer.nvidia.com/cuda-toolkit-archive
이 부분이 가장 중요한 핵심이다. 다른 상위 버전은 보지도 말고 11.3.0을 다운 받는 것이 가장 정신건강에 이롭다.
일단 pytorch 공홈에서 보면 호환되는 버전이 10.2 와 11.3, 11.6이 있는데 11.6은 tensorflow에서 호환이 어렵다.
그러니 그냥 11.3.0을 받도록하자. 혹시 그래픽카드가 좋은거라서 더 높은 버전을 써야하는 것 아닌가 싶을 수 있는데, 그냥 11.3.0 을 받아서 돌아가면 마음편하다. (본인 경험상 11.5 이상은 텐서플로우에서 크러시날 확률이 높다. 10.2는 시도 안해봤지만 10.2버전은 호환이 될 가능성이 높다.)
설치는 그냥 권장으로 쭉쭉 밀면 된다.
3. cuDNN v8.2.0 버전 설치
https://developer.nvidia.com/cudnn
다음으로는 cuDNN을 다운받아야 하는데, 로그인이 필요하다. NVIDIA 아이디가 없을시 가입이 강제된다.
여기서 중요한 포인트는 cuDNN v8.2.0을 받아야 한다는 점이다.
받아보면 파일명에 11.3이라고 박혀있는 주제에 공홈에는 11.x라고 적혀있다. 왜인지 모르겠으나 그냥 v8.2.0으로 받자
설치는 받은 cuDNN zip 압축을 푼 이후 내용물을 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3 폴더에 덮어씌운다.
4. Tensorflow, pytorch 간단한 훈련 진행 테스트
# tensorflow 확인
import tensorflow as tf
tf.test.is_gpu_available()
# torch 확인
import torch
torch.cuda.is_available()
위의 코드로 GPU를 인식하고 있는 여부를 확인할 수 있다.
하지만 GPU를 인식하고 있어도 kernel crash 오류가 날 수 있음으로 간단한 학습을 진행시켜보는 것을 권장한다.
'IT > TroubleShooting' 카테고리의 다른 글
Tensorflow GPU kerner died 문제, kernel process died ExitCode: 3221226505 (0) | 2022.08.03 |
---|---|
Flask 환경설정 debug mode:on 설정문제 (0) | 2021.10.06 |
Error: Failed to find Flask application or factory in module 오류 (0) | 2021.10.06 |
Docker 재부팅시 자동실행 안되게 하는 방법 (0) | 2021.10.02 |
Docker Git-bash 에러 : the input device is not a TTY. If you are using mintty, try prefixing the command with 'winpty' (0) | 2021.09.30 |