딥러닝

학습 도중 killed 문제

ufris 2025. 2. 18. 10:26

학습 도중에 killed 문제가 발생하면 GPU 메모리 문제라고 생각하는 경우가 많습니다

 

하지만 ram 메모리 부족으로 인해 발생하는 경우로 

 

$ free -m

ram 사용률에 대해서 확인해보면 ram 메모리가 계속 증가하는 것을 볼 수 있습니다

 

해결 방법으로

 

1. 모델에서 나온 결과에 대해 cpu().numpy() 로 변환

 

2. 학습 loss를 확인하기 위해 Total_loss += loss 하는 경우가 많은데 
Total_loss += float(loss) 나 loss.detach().cpu() 로 변환해서 Total_loss 변수에 저장해야합니다