본문 바로가기
반응형

전체 글72

[Ubuntu 20.04] CUDA 11.4.4 cuDNN v8.2.2 torch v1.11.0 1. Nvidia, CUDA 초기화CUDA Toolkit 및 Nvidia driver 설치 또는 재설치 중 패키지 의존성 및 설치 불가능 오류가 뜰 경우, 대대적인 초기화를 진행한다. https://settembre.tistory.com/4471.1. Nvidia driver 완전 삭제$ sudo apt-get purge nvidia$ sudo apt-get autoremove$ sudo apt-get autoclean1.2. CUDA 완전 삭제$ sudo rm -rf /ust/local/cuda*$ sudo apt-get --purge remove 'cuda*'$ sudo apt-get autoremove --purge 'cuda*'1.3. 마무리 추가 확인$ sudo dpkg -l | grep nvi.. 2023. 11. 21.
A2C discrete / continuous https://medium.com/deeplearningmadeeasy/advantage-actor-critic-continuous-case-implementation-f55ce5da6b4c Advantage Actor Critic continuous case implementation Woha! This one have been quite tough! Also having a beautiful one year old kid doesn’t make writing articles and having side projects easy… medium.com https://huggingface.co/blog/deep-rl-a2c Advantage Actor Critic (A2C) Advantage Actor C.. 2023. 5. 2.
CUDA_toolkit=10.2 cudnn=7.6.5 pytorch=v1.9.0 https://deepflowest.tistory.com/338 [Window] CUDA 10.2 , cuDNN 7.6.5 설치 ■ 기존 버전, 환경 확인 OS : Windows 10 Graphic card : GTX1080 CUDA 11.1 ■ 설치 리스트 CUDA 10.2 cuDNN 7.6.5 1. 기존 CUDA, NVIDIA 드라이버 삭제 1) "프로그램 추가/제거" 에서 "NVIDIA" 검색 후 관련된 것들 모두 삭 deepflowest.tistory.com https://bo-10000.tistory.com/75 CUDA, driver, PyTorch + Tensorflow 호환되는 version 찾고 설치(업그레이드, 다운그레이드)하기 CUDA를 설치 시에 driver version에 맞는 v.. 2023. 3. 16.
Chapter 2. Multi-arm Bandits (2) 강화학습의 바이블이라고 불리는 Richard S. Sutton의 Reinforcement Learning: An Introduction을 공부하고 필자가 이해한 내용과 추가 정보들을 예제와 함께 간략하고 쉽게(?) 설명하는 방식으로 정리해봅니다. 용어 같은 경우, 원문 그대로 사용하겠지만 혹시 모를 번역 오류 및 잘못된 설명에 대한 지적과 보충 환영합니다. 2. Multi-arm Bandits (2) 2023.03.07 - [Reinforcement Learning: An Introduction] - Chapter 2. Multi-arm Bandits (1) 2.5 Optimistic Initial Values 이전 게시물에서 우리는 initial action-value estimates $Q_1(a)$.. 2023. 3. 8.
Chapter 2. Multi-arm Bandits (1) 강화학습의 바이블이라고 불리는 Richard S. Sutton의 Reinforcement Learning: An Introduction을 공부하고 필자가 이해한 내용과 추가 정보들을 예제와 함께 간략하고 쉽게(?) 설명하는 방식으로 정리해봅니다. 용어 같은 경우, 원문 그대로 사용하겠지만 혹시 모를 번역 오류 및 잘못된 설명에 대한 지적과 보충 환영합니다. 2. Multi-arm Bandits (1) 강화학습은 올바른 action을 지시하는 것이 아니라 취한 action을 평가하는 교육 정보를 사용한다. 이는 좋은 action에 대한 explicit trial-and-error을 위해서 적극적인 explore이 필요한 이유이다. action을 평가하는 방식인 feedback에는 evaluative fee.. 2023. 3. 7.
Chapter 1. The Reinforcement Learning Problem 강화학습의 바이블이라고 불리는 Richard S. Sutton의 Reinforcement Learning: An Introduction을 공부하고 필자가 이해한 내용과 추가 정보들을 예제와 함께 간략하고 쉽게(?) 설명하는 방식으로 정리해봅니다. 용어 같은 경우, 원문 그대로 사용하겠지만 혹시 모를 번역 오류 및 잘못된 설명에 대한 지적과 보충 환영합니다. 1. The Reinforcement Learning Problem 1.1 Reinforcement Learning 머신러닝은 지도학습(Supervised), 비지도학습(Unsupervised), 강화학습(Reinforced) 크게 세 가지로 분류된다. 이들의 궁극적인 목적으로는 지도학습은 결과를 예측(Regression, Classification).. 2023. 3. 6.
반응형