《动手学深度学习pytorch版本》中z.backward的v是什么意思？

时间：2023-04-26

问题描述
在看《动手学深度学习pytorch版本实现》时候作者在谈到梯度，有如下的代码以及表述。

x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)y = 2 * xz = y.view(2, 2)print(z)

此时输出：

tensor([[2., 4.], [6., 8.]], grad_fn=)

现在 z 不是一个标量，所以在调用backward时需要传入一个和z同形的权重向量进行加权求和得到一个标量。

v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float)z.backward(v)print(x.grad)

输出：

tensor([2.0000, 0.2000, 0.0200, 0.0020])

看到这里的时候表示很迷惑，不知道这个z.backward(v)中的v起到了什么作用，现在经过查阅相关资料后记录如下。

解释：

由上面的代码我们可以知道y = 2x， z只不过是把y的1 * 4的结构改变成了2 * 2.在我们使用backward计算梯度的过程中，本质上还是对y = 2x对x进行求导，我们很容易知道对y关于x求导的结果应该是[2, 2, 2, 2]（因为x=[1.0, 2.0, 3.0, 4.0]表明这里实际上是有x1，x2, x3, x4四个变量，要对这4个变量分别求导）。

语句z.backward(v)中的参数v相当于对每个变量求导结果所加的系数，在v=[[1.0, 0.1], [0.01, 0.001]的影响下，最终的返回结果变成了[2.0000, 0.2000, 0.0200, 0.0020]的样子。

~~总结一下：~~
假设 x 经过一番计算得到 y，那么 y.backward(w) 求的不是 y 对 x 的导数，而是w 可以视为 y 的各分量的权重以后的导数。特别地，若 y 为标量，w 取默认值 1.0，才是按照我们通常理解的那样，求 y 对 x 的导数。

更多的实验

不使用z = y.view(2, 2)语句，直接用y求梯度结果还和上面描述一样吗？此时的bcakward（v）中的v又应该是什么？

x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True) y = 2 * x #z = y.view(2, 2) print(y)

输出结果如下：

tensor([2., 4., 6., 8.], grad_fn=)

现在 z 不是一个标量，所以在调用backward时需要传入一个和z同形的权重向量进行加权求和得到一个标量。

v = torch.tensor([1.0, 0.1, 0.01, 0.001], dtype = torch.float) # z.backward(v) y.backward(v) print(x.grad)

输出结果如下：

tensor([2.0000, 0.2000, 0.0200, 0.0020])

实验证明此处的backward（v）中的v确实是系数？
我们假设有以下函数，对其求导：

x = torch.tensor([1.0,2.0,3.0],requires_grad=True)y = (x + 2)**2z = 4*yz.backward(torch.tensor([1,1,1]))x.grad

输出结果如下：

tensor([24., 32., 40.])

如果改一下代码：

z.backward(torch.tensor([10,10,10]))x.grad

结果如下

tensor([240., 320., 400.])

参考文献：

https://github.com/ShusenTang/Dive-into-DL-PyTorch/blob/master/docs/chapter02_prerequisite/2.3_autograd.mdhttps://zhuanlan.zhihu.com/p/168748668https://zhuanlan.zhihu.com/p/65609544https://zhuanlan.zhihu.com/p/29923090

上一篇：一个马虎导致以文件输出快速排序结果耗时巨长

下一篇：python学习——输入和输出