问题描述
在看《动手学深度学习pytorch版本实现》时候作者在谈到梯度,有如下的代码以及表述。
x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)y = 2 * xz = y.view(2, 2)print(z)
此时输出:
tensor([[2., 4.], [6., 8.]], grad_fn=
现在 z 不是一个标量,所以在调用backward时需要传入一个和z同形的权重向量进行加权求和得到一个标量。
v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float)z.backward(v)print(x.grad)
输出:
tensor([2.0000, 0.2000, 0.0200, 0.0020])
看到这里的时候表示很迷惑,不知道这个z.backward(v)中的v起到了什么作用,现在经过查阅相关资料后记录如下。
解释:
由上面的代码我们可以知道y = 2x, z只不过是把y的1 * 4的结构改变成了2 * 2.在我们使用backward计算梯度的过程中,本质上还是对y = 2x对x进行求导,我们很容易知道对y关于x求导的结果应该是[2, 2, 2, 2](因为x=[1.0, 2.0, 3.0, 4.0]表明这里实际上是有x1,x2, x3, x4四个变量,要对这4个变量分别求导)。
语句z.backward(v)中的参数v相当于对每个变量求导结果所加的系数,在v=[[1.0, 0.1], [0.01, 0.001]的影响下,最终的返回结果变成了[2.0000, 0.2000, 0.0200, 0.0020]的样子。
总结一下:
假设 x 经过一番计算得到 y,那么 y.backward(w) 求的不是 y 对 x 的导数,而是w 可以视为 y 的各分量的权重以后的导数。特别地,若 y 为标量,w 取默认值 1.0,才是按照我们通常理解的那样,求 y 对 x 的导数。
更多的实验
不使用z = y.view(2, 2)语句,直接用y求梯度结果还和上面描述一样吗?此时的bcakward(v)中的v又应该是什么?
x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True) y = 2 * x #z = y.view(2, 2) print(y)
输出结果如下:
tensor([2., 4., 6., 8.], grad_fn=
现在 z 不是一个标量,所以在调用backward时需要传入一个和z同形的权重向量进行加权求和得到一个标量。
v = torch.tensor([1.0, 0.1, 0.01, 0.001], dtype = torch.float) # z.backward(v) y.backward(v) print(x.grad)
输出结果如下:
tensor([2.0000, 0.2000, 0.0200, 0.0020])
实验证明此处的backward(v)中的v确实是系数?
我们假设有以下函数,对其求导:
x = torch.tensor([1.0,2.0,3.0],requires_grad=True)y = (x + 2)**2z = 4*yz.backward(torch.tensor([1,1,1]))x.grad
输出结果如下:
tensor([24., 32., 40.])
如果改一下代码:
z.backward(torch.tensor([10,10,10]))x.grad
结果如下
tensor([240., 320., 400.])
参考文献:
https://github.com/ShusenTang/Dive-into-DL-PyTorch/blob/master/docs/chapter02_prerequisite/2.3_autograd.mdhttps://zhuanlan.zhihu.com/p/168748668https://zhuanlan.zhihu.com/p/65609544https://zhuanlan.zhihu.com/p/29923090