从0-1学习CUDA

Week 1

C/C++

NVIDIA CUDA Toolkit

deviceQuery

vectorAdd

学习目标

巩固

安装

验证

理解

第 1 步：巩固 C/C++ 核心知识 (Pointers, Memory, Functions)

CUDA C++ 是 C++ 的一个扩展。在深入学习 CUDA 之前，必须对以下几个 C/C++ 概念有扎实的理解，因为您将频繁地手动管理主机（CPU）和设备（GPU）之间的内存。

1.1 指针 (Pointers)

指针是一个存储内存地址的变量。在 CUDA 中，您会用到指向 CPU 内存的指针（主机指针）和指向 GPU 内存的指针（设备指针）。

核心概念回顾：

声明

int* ptr;

取地址 (&)

int var = 10; ptr = &var;

ptr

var

解引用 (*)

*ptr = 20;

var

C++

// C++ Pointer Refresher#include <iostream>void main() {    int value = 10;    int* pointerToValue = &value; // 指针存储了 value 的地址    std::cout << "Original value: " << value << std::endl;    std::cout << "Address of value (&value): " << &value << std::endl;    std::cout << "Pointer holds address: " << pointerToValue << std::endl;    // 使用指针修改值    *pointerToValue = 50;    std::cout << "New value after dereferencing: " << value << std::endl;}

1.2 内存管理 (Stack vs. Heap)

栈 (Stack)

堆 (Heap)

在 CUDA 中，cudaMalloc() 类似于 C 语言的 malloc()，它在 GPU 的全局内存（一种堆内存） 中分配空间。

核心概念回顾：

C 语言方式 (malloc/free) :

int* arr = (int*) malloc(10 * sizeof(int)); // 在堆上分配10个整数的空间// ... 使用 arr ...free(arr); // 必须手动释放

C++ 方式 (new/delete) :

C++

int* arr = new int[10]; // 在堆上分配10个整数的空间// ... 使用 arr ...delete[] arr; // 必须手动释放数组

1.3 函数与函数指针

函数是执行特定任务的代码块。在 CUDA 中，您将编写在 GPU 上执行的特殊函数，称为“核函数 (Kernel)”。理解普通 C++ 函数的传值和传引用对于理解如何将数据传递给核函数至关重要。

核心概念回顾：

传值 (Pass-by-Value)

传指针 (Pass-by-Pointer)

传引用 (Pass-by-Reference, C++)

C++

// C++ Function Refresher#include <iostream>void modifyValue(int* ptr) {    *ptr = 100; // 通过指针修改原始数据}int main() {    int myVar = 5;    std::cout << "Original myVar: " << myVar << std::endl;    modifyValue(&myVar); // 传递 myVar 的地址    std::cout << "Modified myVar: " << myVar << std::endl; // 输出 100    return 0;}

第 2 步：安装 NVIDIA CUDA Toolkit 和驱动

这是最关键的一步。驱动程序让操作系统能够与 NVIDIA GPU 通信，而 CUDA Toolkit 提供了编译器（NVCC）、库和 API，让您能够编写 GPU 程序。

2.1 检查硬件

首先，确保您的计算机上有一个 NVIDIA 的 CUDA-Capable GPU。

Windows

Linux

lspci | grep -i nvidia

2.2 下载 CUDA Toolkit

NVIDIA CUDA Toolkit Download

建议选择 network (网络) 安装程序

2.3 安装步骤

Windows:

.exe

同时安装 CUDA 工具包和最新的兼容驱动程序

CUDA_PATH

Linux (以 Ubuntu 为例) :

官网会提供一系列终端命令。严格按照顺序复制并执行它们。这通常包括添加 NVIDIA 的软件源、更新包列表以及安装 cuda 包。

安装命令示例：

Bash

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.debsudo dpkg -i cuda-keyring_1.1-1_all.debsudo apt-get updatesudo apt-get -y install cuda-toolkit-12-5

安装完成后，根据提示将 CUDA 路径添加到您的 ~/.bashrc 文件中：

Bash

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrcecho 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrcsource ~/.bashrc

2.4 验证安装

安装完成后，打开一个新的终端（或命令提示符）并运行以下命令：

验证驱动程序:

Bash

nvidia-smi

如果此命令成功运行并显示您的 GPU 信息和驱动版本，说明驱动已正确安装。

验证 CUDA 编译器 (NVCC) :

Bash

nvcc --version

此命令应显示您安装的 NVCC 编译器版本。

如果这两个命令都成功执行，您的 CUDA 环境已准备就绪！

第 3 步：运行 CUDA 示例

CUDA Toolkit 自带了许多示例代码，是验证环境和学习的最佳起点。

3.1 找到示例代码

Windows

C:\ProgramData\NVIDIA Corporation\CUDA Samples\v<version>

Linux

~/NVIDIA_CUDA-<version>_Samples

/usr/local/cuda/samples

将示例目录复制到一个您有写入权限的位置，例如您的用户主目录。

Bash

# Linuxcuda-install-samples-12.5.sh ~/cd ~/NVIDIA_CUDA-12.5_Samples/

3.2 编译并运行 `deviceQuery`

deviceQuery 会枚举系统中的所有 CUDA 设备并显示其属性。

进入 deviceQuery 目录：

Bash

cd 1_Utilities/deviceQuery

编译：

Linux

make

Windows

.sln

运行：

Bash

./deviceQuery

您应该会看到类似下面的输出，列出了您的 GPU 名称、计算能力、内存大小等。最重要的是最后一行：

...Device 0: "NVIDIA GeForce RTX 4080"  CUDA Driver Version / Runtime Version          12.5 / 12.5  ...Result = PASS

3.3 编译并运行 `vectorAdd`

vectorAdd 是一个经典的并行计算入门程序，它在 GPU 上执行两个向量的相加。

返回示例根目录，进入 vectorAdd 目录：

Bash

cd ../../0_Simple/vectorAdd

编译 (同上，make 或 Visual Studio)。1

运行：2

Bash

./vectorAdd

如果一切正常，您会看到：3

[Vector addition of 50000 elements]Copy input data from the host memory to the CUDA deviceCUDA kernel launch with 196 blocks of 256 threadsCopy output data from the CUDA device to the host memoryTest PASSEDDone

看到 Result = PASS 和 Test PASSED 意味着您的 CUDA 环境和硬件工作完全正常！

第 4 步：阅读《CUDA by Example》第 1-2 章

现在您的环境已经就绪，是时候理解背后的理论了。请阅读《CUDA by Example: An Introduction to General-Purpose GPU Programming》的前两章。

关键概念总结 (Chapters 1-2)

CPU (Host) vs. GPU (Device) : CUDA 编程涉及主机和设备两端。代码在主机上启动，但计算密集型部分（称为核函数）被发送到设备上执行。

核函数 (Kernel) : 使用 __global__ 修饰符声明的函数。当主机调用核函数时，它会在 GPU 上由成百上千个线程并行执行。

基本 CUDA 流程:

分配内存

malloc

new

cudaMalloc()

传输数据

cudaMemcpy()

执行核函数

kernel_name<<<...>>>()

传回数据

cudaMemcpy()

释放内存

free

delete

cudaFree()

线程层次结构: CUDA 使用 Grid -> Block -> Thread 的层次结构来组织线程。您在调用核函数时指定要启动多少个线程块 (Block) 以及每个块包含多少个线程 (Thread)。

完成以上所有步骤后，您将拥有一个正常工作的 CUDA 开发环境，并对并行计算的基本模型有了初步的了解，为后续更深入的学习奠定了坚实的基础。祝您学习顺利！

Week 1

学习目标

第 1 步：巩固 C/C++ 核心知识 (Pointers, Memory, Functions)

1.1 指针 (Pointers)

1.2 内存管理 (Stack vs. Heap)

1.3 函数与函数指针

第 2 步：安装 NVIDIA CUDA Toolkit 和驱动

2.1 检查硬件

2.2 下载 CUDA Toolkit

2.3 安装步骤

2.4 验证安装

第 3 步：运行 CUDA 示例

3.1 找到示例代码

3.2 编译并运行 `deviceQuery`

3.3 编译并运行 `vectorAdd`

第 4 步：阅读《CUDA by Example》第 1-2 章

关键概念总结 (Chapters 1-2)

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

Week 1

学习目标

第 1 步：巩固 C/C++ 核心知识 (Pointers, Memory, Functions)

1.1 指针 (Pointers)

1.2 内存管理 (Stack vs. Heap)

1.3 函数与函数指针

第 2 步：安装 NVIDIA CUDA Toolkit 和驱动

2.1 检查硬件

2.2 下载 CUDA Toolkit

2.3 安装步骤

2.4 验证安装

第 3 步：运行 CUDA 示例

3.1 找到示例代码

3.2 编译并运行 deviceQuery

3.3 编译并运行 vectorAdd

第 4 步：阅读《CUDA by Example》第 1-2 章

关键概念总结 (Chapters 1-2)

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

3.2 编译并运行 `deviceQuery`

3.3 编译并运行 `vectorAdd`