记在Ubuntu 22.04 LTS上摆设PyTorch深度进修环境

比来的工作需要利用深度进修手艺,也就免不了利用GPU,但是今朝我尝试室的机械上利用的是Windows 11的操纵系统,用来进行尝试确分歧适我一个长年不消Windows系统的人的习惯?,因而我买来一块移动硬盘并在这之上摆设了基于Ubuntu 22.04 LTS的PyTorch的深度进修环境。开初我觉得会一切顺利,可千万没想到重装一时爽,配环境火化场…本文谨记实在这中踩的坑。

關于移動硬盤外挂操纵系統

就今朝來說,我的建議是:不要這麽做,最少不要利用機械硬盤。

我手上这块是WD Element的机械移动硬盘,简单测试了一下挨次读写速度,别离为:5.7GB/S和128MB/S。看着还不错,可一旦到了随机读写任务上速度与延迟就一言难尽了。直不雅的感受就是一个字——,可是首要體現在讀盤冷啓動的時候(畢竟實驗室機器的建设還是不錯的)。

關于NVIDIA驅動問題

說句實話,我之前從未在Linux上建设過深度學習環境,用的经常是建设好了的現成品,這一次我多几几何理解爲什麽大年夜家都在說Linux上的NVIDIA驅動很難用了…事實上爲了處理驅動問題,我從下午13時一向幹到了下午17時(其實首要受磁盤IO速度與實驗室網絡環境影響)。

在安装Ubuntu系统的时辰,安装法式有扣问是不是要安装附加驱动(Additional Drivers),我自然是勾选了肯定。进入系统,在miniconda虚环境下安装PyTorch,始终没法安装对应GPU版本(CUDA)。查抄发现主动安装的驱动实在不是最新的(应当是510版本),本能地觉得升级驱动便可以了,没想到这只是噩梦的开端。

事實上,安裝驅動的编制並不只有一種,最少我找到的编制就有三種:

  • 從NVIDIA官網下載。
  • 利用ubuntu-drivers autoinstall安裝。
  • 利用系統應用Additional Drivers安裝。(事实证实,这是最好的编制)

試試安裝從NVIDIA官網下載的驅動

其實早在安裝系統前,我已經提早在NVIDIA官網下好了對應的驅動法式,可是執行後發現最少有兩個問題:

  1. 安裝驅動法式需要遏制一切占用GPU的進程,此中就包含Ubuntu自帶的桌面環境GNOME。這一點可以通過利用Nouveau驅動解決。
  2. 驅動安裝法式提示建議利用Ubuntu發行版渠道下載驅動,因官網驅動並不是最兼容最優化版本。

那就用ubuntu-drivers autoinstall安裝驅動吧

按理來說,從這裏安裝應該是穩妥的,可是不知道是不是是因爲bug的启事,安裝的驅動一向報錯。最後無奈只能利用apt purge断根掉落所有的相關軟件包了。

最後還是利用系統應用Additional Drivers安裝驅動吧

最開始其實我也是從這裏安裝的驅動,但是遭到了一篇教程的蠱惑,最后放弃了这一步。回过甚来才发觉,当初就应当利用这一编制。当然这当中也碰到了一个题目,那就是开源驱动(open kernel)驱动的题目——一开端我利用的是525版本的开源驱动,事实上这也是上一步中ubuntu-drivers推薦我安裝的。但是在兩次清潔安裝後,顯示的錯誤是一致的,均是無法找到設備。隨後我開始懷疑是不是是開源驅動的問題,遂安裝525版本的非開源版本,問題解決。

驅動問題解決了,利用conda install,成功一鍵摆设PyTorch的GPU版本。

關于XRDP遠程桌面

由于尝试室收集登录编制是Web Portal,所以有一个图形化界面还是加倍便利一些。在遵循教程建设好后,连接的成果倒是黑屏和闪退。遵循我搜刮到的资料,大年夜大都的资料指向向/etc/xrdp/startwm.sh中添加以下字段:

1
2
unset DBUS_SESSION_BUS_ADDRESS
unset XDG_RUNTIME_DIR

實際上,完全建设XRDP還需要向xsessionrc中添加桌面法式(比如Ubuntu自帶的GNOME)。而我最後的解決方案還是通過查看XRDP的錯誤日记,安裝dbus-lauch這一缺掉的軟件包解決的。


總結:

  1. 不要利用移動硬盤安裝操纵系統,最少不要利用機械硬盤。
  2. 盡量參考外文官網資料,因其经常更新更詳盡。
  3. 檢查法式日记而不是搜刮症狀。
利用 Hugo 構建
主題 StackJimmy 設計
xxfseo.com