加速 Pandas | WSL2 安裝 cuDF
前言
加速 Pandas | WSL2 安裝 cuDF
前言
Pandas 是許多數據科學家和分析師不可或缺的工具。它的直觀性和靈活性使得數據操作和分析變得輕而易舉。然而,當面對大規模數據集時,Pandas 常見的性能瓶頸開始浮現。現在有許多加速 Pandas 的方式,本文將探討 cuDF ,一個利用 GPU 加速能力,一步一步帶大家在 WSL2 上安裝 cuDF。
安裝 cuDF
步驟1:準備 WSL2 環境
在安裝 cuDF 之前,首先需要確保你的 Windows 系統中已安裝並配置好了 WSL2。WSL2 不僅提供了一個完整的 Linux 環境,而且還支持直接與 Windows 文件系統交互,為高性能計算提供了理想的平台。若你尚未安裝 WSL2,可以參考 Microsoft 官方指南 進行安裝。
步驟2:安裝 CUDA
cuDF 的高效運作依賴於 NVIDIA 的 CUDA 技術。因此,安裝 CUDA 是實現 GPU 加速的前提。可以參考我前篇文章 WSL2 安裝 cuda 與 PyTorch
步驟3:安裝 cuDF
首先他對電腦有一些限制,可以查看你的電腦是否有符合再繼續:
- OS: Windows 11 with Ubuntu 22.04 instance for WSL2. - WSL Version: WSL2 (WSL1 not supported) . - GPU: GPUs with Compute Capability 7.0 or higher (16GB+ GPU RAM is recommended) .
之後我們需要安裝 conda-libmamba-solver,這是 Conda 的一個組件,它使用 libmamba
作為底層的解析器來處理包的依賴關係和環境解析。 libmamba
是 Mamba 專案的核心部分,Mamba 是 Conda 的一個替代品,旨在提供更快的包管理和解析能力,有興趣可以去 Mamba github 看相關內容。
1
conda install -n base conda-libmamba-solver
安裝完後就可以在 rapids 的 官網 上找到你對應的安裝指令:
你的 CUDA 版本可以使用 nvidia-smi
來查看。
如果你照著上面的指令安裝,那麼安裝完後會建立一個新的 conda env: rapids-23.12,進到 env 中就可以檢查 cudf 是否安裝成功。
1
2
conda activate rapids-23.12
conda list