ufris
gpu 0 만 사용해서 잘 돌아가다가 다른 학습을 위해 gpu 1번을 사용하는 순간 해당 에러가 발생 학습이 잘 되던 gpu 0 도 오류가 발생해서 학습이 진행 안됐는데 $ torch.cuda.init() # CUDA 시스템 초기화 코드가 있으면 위와 같은 오류가 발생하기 때문에 해당 코드는 삭제 후 돌리니까 오류가 해결 됐습니다
학습 도중에 killed 문제가 발생하면 GPU 메모리 문제라고 생각하는 경우가 많습니다 하지만 ram 메모리 부족으로 인해 발생하는 경우로 $ free -mram 사용률에 대해서 확인해보면 ram 메모리가 계속 증가하는 것을 볼 수 있습니다 해결 방법으로 1. 모델에서 나온 결과에 대해 cpu().numpy() 로 변환 2. 학습 loss를 확인하기 위해 Total_loss += loss 하는 경우가 많은데 Total_loss += float(loss) 나 loss.detach().cpu() 로 변환해서 Total_loss 변수에 저장해야합니다

docker 안에서는 인터넷을 통해 다운 받는게 어렵기 때문에 wget으로 설치 파일을 다운 받습니다 anaconda 사이트에서 다운 받으려는 설치 파일 우클릭으로 '주소 복사'를 해서 $ wget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh 를 통해 다운을 받습니다 https://ufris.tistory.com/5 ubuntu에서 pycharm과 anaconda 설치 및 가상환경 만들기 pycharm 설치 터미널에서 아래 코드를 실행합니다 sudo apt install snapd snapd-xdg-opensudo snap install pycharm-community --classic Anaconda 설치 아나콘다를 설치하..