The lenet from zxrobot

全连接层的反向传播

下面介绍一下全连接层的反向传播算法的推导。首先对全连接层的前向过程进行一下介绍。

我们把全连接层的每一层神经元都表示为一个列向量。上一层的神经元的输出，通过乘上当前层的权重矩阵加上列向量形式的偏置项，得到激活前的输出值，最后通过激活函数得到当前层的输出，公式如下： $$z^l=W^la^{l-1}+b^l$$ $$a^l=\sigma (z^l)$$ 其中 $z^l$表示第$l$层未经过激活函数的结果，$a^l$表示经过激活函数得到的输出结果。假设上一层的输出是[m,1]的列向量，当前层的输出是[n,1]的列向量，那权重矩阵应为[n,m],偏置矩阵为[n,1]。接下来进行反向传播的过程，首先定义一个误差函数，来衡量神经网络与正确的输出之间的差异。为了简单，本文直接采用了最简单的均方误差损失函数： $$C=\frac{1}{2}||a^L-y||^2$$ 其中$L$代表多层感知机的总层数，得到总误差之后，我们就可以通过反向传播对各层的权重矩阵$W^l$和偏置列向量$b^l$进行更新，使神经网络的误差减小，达到训练的目的。
由于反向传播链式传导的规律，为了避免重复计算，我们引入中间量$\delta^l$,我们称它为第$l$层的误差，具体含义为误差函数对于神经网络第$l$层未经激活函数的输出值的偏导数，即$\delta^l=\frac{\partial C}{\partial z^l}$，输出层的网络误差$\delta ^L$ 为： $$\delta ^L=\frac{\partial C}{\partial z^L}=\frac{\partial C}{\partial a^L}\frac{\partial a^L}{\partial z^L}=(a^L-y)\bigodot \sigma^l(z^l)$$ 其中，$\bigodot$表示矩阵逐元素相乘。
接下来求$W$矩阵的导数，应用链式法则，得： $$\frac{\partial C}{\partial W^l}=\frac{\partial C}{\partial z^l}\frac{\partial z^l}{\partial W^l}=\delta^L(a^{L-1})^T$$ $$\frac{\partial C}{\partial b^l}=\frac{\partial C}{\partial z^l}\frac{\partial z^l}{\partial b^l}=\delta^L\bigodot1=\delta^L$$ 矩阵乘法的求导即乘上系数矩阵所对应的转置，同时左乘还是右乘需要跟上述前向过程保持一致。我们得到了最后一层的误差，接下来我们根据后一层的 $\delta$ 得到前一层的$\delta$，最后我们可以求得每一层的$\delta$。假设我们得到了第 $l+1$ 的 $\delta$ ，第$l$层的 $\delta$ 表示如下： $$\delta^l=\frac{\partial C}{\partial z^l}=\frac{\partial C}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial z^l}=\delta^{l+1}\frac{\partial z^{l+1}}{\partial z^l}$$ $$z^{l+1}=W^{l+1}a^l+b^{l+1}=W^{l+1}\delta(z^l)+b^{l+1}$$ $$\delta^l=(W^{l+1})^T\delta^{l+1}\bigodot\delta'(z^l)$$ 这同时也要注意求导后矩阵运算是左乘还是右乘。接下来我们分析误差函数$C$对每一层参数$W$的梯度 $$\frac{\partial C}{\partial w^l}=\frac{\partial C}{\partial z^l}\frac{\partial z^l}{\partial w^l}=\delta^l(a^{l-1})^T$$ $$\frac{\partial C}{\partial b^l}=\frac{\partial C}{\partial z^l}\frac{\partial z^l}{\partial b^l}=\delta^l$$ 接下来通过梯度下降法更新权重和偏置 $$W^l=W^l-\eta\frac{\partial C}{\partial w^l}$$ $$b^l=b^l-\eta\frac{\partial C}{\partial b^l}$$ 在上述的分析中，我们只根据一组训练数据更新权重，在一般情况下，我们往往会采用随即梯度下降法，一次性训练一批数据，先计算一批数据的中每一组数据的误差，在根据它们的平均值来进行权重更新 $$W^l=W^l-\frac{\eta}{batch_size}\sum{\frac{\partial C}{\partial W^l}}$$

def full_connect(self,input_data,fc,front_delta=None,deriv=False):
    N=input_data.shape[0]
    if deriv==False:
        output_data=np.dot(input_data.reshape(N,-1),fc)
        return output_data
    else:
        back_delta=np.dot(front_delta,fc.T).reshape(input_data.shape)
        fc+=self.lr*np.dot(input_data.reshape(N,-1),front_delta)
        return back_delta,fc

卷积层的反向传播

①卷积层通过张量的卷积，或者说是多个矩阵卷积求和得到的输出，这和全连接层是不同的,所以在反向传播的时候，上一层的$\delta^{l-1}$递推计算方法是不同的。
②在卷积运算的过程中，从$\delta^l$推导出$W$、$b$的方式也是不同的。
各个符号所代表的数学意义和上一节全连接层相同。
卷积层的前向传播过程如下：

前向传播的公式为：
$$a^l=\sigma(z^l)=\sigma(a^{l-1}W^l+b^l)$$ 在全连接中，$\sigma^l$和$\sigma^{l+1}$的关系为： $$\delta^l=\frac{\partial C}{\partial z^l}=\frac{\partial C}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial z^l}=\delta^{l+1}\frac{\partial z^{l+1}}{\partial z^l}$$ 同样应用在卷积层中，但如上面①提到的，$\frac{\sigma z^{l+1}}{\sigma z^l}$在全连接层和卷积层的计算方法不同。我们通过一个简单的例子来进行一下分析。
假设我们$l$层的输入$a^{l}$是一个$3\times3$的矩阵，第$l+1$层的卷积核$W^l$是一个$2\times2$的矩阵，步长为1，则输出$z^{l+1}$为： $$z^{l+1}=a^lW^{l+1}$$ $\begin{pmatrix} a_{11}&a_{12}&a_{13}\ a_{21}&a_{22}&a_{23}\ a_{31}&a_{32}&a_{33}\ \end{pmatrix}$*$\begin{pmatrix} w_{11}&w_{12}\ w_{21}&w_{22}\ \end{pmatrix}$=$\begin{pmatrix} z_{11}&z_{12}\ z_{21}&z_{22}\ \end{pmatrix}$

根据卷积的计算公式，得 $$z_{11}=a_{11}*w_{11}+a_{12}*w_{12}+a_{21}*w_{21}+a_{22}*w_{22}$$ $$z_{12}=a_{12}*w_{11}+a_{13}*w_{12}+a_{22}*w_{21}+a_{23}*w_{22}$$ $$z_{21}=a_{21}*w_{11}+a_{22}*w_{12}+a_{31}*w_{21}+a_{32}*w_{22}$$ $$z_{22}=a_{22}*w_{11}+a_{23}*w_{12}+a_{32}*w_{21}+a_{33}*w_{22}$$ 模拟反向求导，得 $$\nabla a^l=\frac{\partial C}{\partial a^l}=\frac{\partial C} {\partial z^{l+1}} \frac{\partial z^{l+1}}{\partial a^l}=\delta^{l+1} \frac{\partial z^{l+1}}{\partial a^l}$$ 从上式可以看出，对于$a^l$的梯度误差$\nabla a^{l}$，等于$\delta^{l+1} \frac{\partial z^{l+1}}{\partial a^l}$,而$\frac{\partial z^{l+1}}{\partial a^l}$可以通过上述的卷积计算式推到出来。我们输出了一个$2\times2$的矩阵，所以传播误差也为一个$2\times2$的矩阵，假设为 $$ \begin{pmatrix} \delta_{11}&\delta_{12}\ \delta_{21}&\delta_{22}\ \end{pmatrix} $$ 对于$a_{11}$的梯度，在上述算式中只有$z_{11}$和他有关系。$\delta_{11}$实际上和$z_{11}$所代表的通道是同一通道。 $$\nabla a_{11}=\delta_{11}w_{11}$$ $$\nabla a_{12}=\delta_{11}w_{12}+\delta_{12}w_{11}$$ $$\nabla a_{13}=\delta_{12}w_{12}$$ $$\nabla a_{21}=\delta_{11}w_{21}+\delta_{21}w_{11}$$ $$\nabla a_{22}=\delta_{11}w_{22}+\delta_{12}w_{21}+\delta_{21}w_{12}+\delta_{22}w_{11}$$ $$\nabla a_{23}=\delta_{12}w_{22}+\delta_{22}w_{12}$$ $$\nabla a_{31}=\delta_{21}w_{21}$$ $$\nabla a_{32}=\delta_{21}w_{22}+\delta_{22}w_{21}$$ $$\nabla a_{33}=\delta_{22}w_{22}$$

表示为矩阵协相关的形式表示（其实卷积层的卷积实际上是数学的协相关）：

$\begin{pmatrix} \nabla a_{11}&\nabla a_{12}&\nabla a_{13}\ \nabla a_{21}&\nabla a_{22}&\nabla a_{23}\ \nabla a_{31}&\nabla a_{32}&\nabla a_{33}\end{pmatrix}$=$\begin{pmatrix} 0&0&0&0\ 0&\delta_{11}&\delta_{12}&0\ 0&\delta_{21}&\delta_{22}&0\ 0&0&0&0\end{pmatrix}$*$\begin{pmatrix} w_{22}&w_{21}\ w_{12}&w_{11} \end{pmatrix}$
为了符合梯度计算，我们在误差矩阵周围填充了一圈0，此时我们将卷积核反转180度之后和本层的梯度误差进行卷积，就可以得到下一层的梯度误差。 $$\delta^l=\frac{\partial C}{\partial z^l}=\frac{\partial C}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial z^l}=\delta^{l+1}\frac{\partial z^{l+1}}{\partial z^l}=\delta^{l+1}*rot180(W^{l+1})$$

现在我们推导完了误差的反向传播关系，现在我们根据梯度误差来对$W$、$b$进行更新。

$$z^{l+1}=a^{l}W^{l+1}+b$$ $$\frac{\partial C}{\partial W^{l+1}}=a^l\delta ^{l+1}$$

但是卷积层输入的是矩阵，还是根据上述那个例子来进行分析，可得：

$$\frac{\partial C}{\partial W^{l+1}{11}}=a{11}\delta_{11}+a_{12}\delta_{12}+a_{21}\delta_{21}+a_{22}\delta_{22} $$ $$\frac{\partial C}{\partial W^{l+1}{12}}=a{12}\delta_{11}+a_{13}\delta_{12}+a_{22}\delta_{21}+a_{23}\delta_{22} $$ $$\frac{\partial C}{\partial W^{l+1}{21}}=a{21}\delta_{11}+a_{22}\delta_{12}+a_{31}\delta_{21}+a_{33}\delta_{22} $$ $$\frac{\partial C}{\partial W^{l+1}{12}}=a{22}\delta_{11}+a_{23}\delta_{12}+a_{32}\delta_{21}+a_{33}\delta_{22} $$

$\frac{\partial C}{\partial W^{l+1}}=$ $\begin{pmatrix} a_{11}&a_{12}&a_{13}\ a_{21}&a_{22}&a_{23}\ a_{31}&a_{32}&a_{33}\ \end{pmatrix}$*$\begin{pmatrix} \delta_{11}&\delta_{12}\ \delta_{21}&\delta_{22}\ \end{pmatrix}$

对于$b$，因为$\delta^{l+1}$是高维张量，$b$是一个向量，在这将$\delta^{l+1}$的各个子矩阵的项相加，得到一个误差向量，即为$b$的梯度。

def convolution(self,input_data,kernel,front_delta=None,deriv=False):
    N,C,W,H=input_data.shape
    K_NUM,K_C,K_W,K_H=kernel.shape
    if(deriv==False):
        output_data=np.zeros((N,K_NUM,W-K_W+1,H-K_H+1))
        for imgID in range(N):
            for Kid in range(K_C):
                for Cid im range(C):
                    output_data+=convolve2d(input_data[imgID][Cid],kernel[Kid][Cid],mode='valid')
        return output_data
    else:
        back_delta=np.zeros((N,C,W,H))
        kernel_gradient=np.zeros((K_NUM,K_C,K_W,K_H))
        padded_front_delta=np.pad(front_delta,[(0,0), (0,0), (K_W-1, K_H-1), (K_W-1, K_H-1)], mode='constant', constant_values=0)
        for imgId in range(N):
            for cId in range(C):
                for kId in range(K_NUM):
                    back_delta[imgId][cId] += convolve2d(padded_front_delta[imgId][kId], kernal[kId,cId,::-1,::-1], mode='valid')
                    kernal_gradient[kId][cId] += convolve2d(front_delta[imgId][kId], input_map[imgId,cId], mode='valid')
            # update weights
        kernal += self.lr * kernal_gradient
        return back_delta, kernal

池化层的反向传播

池化层一般没有参数，所以池化层在反向传播的过程中，并不需要进行参数的更新，只需要将梯度误差继续传递下去即可。但是池化操作使得特征图的尺寸发生了变化，这使得梯度误差无法对位的进行传递下去。所以我们采取了保持梯度误差总和不变的原则，例如在$2\times2$的池化层中，我们把1个像素的梯度传递给4个梯度。

平均池化

把某个像素的梯度误差平均分配给前一次

最大池化

在最大池化中也要满足梯度误差总和不变的原则，在反向传播的过程中，我们直接把该元素的梯度误差传递给上一层的最大像素，其他像素梯度误差为0，不接受梯度误差。所以我们需要一个额外的变量记录最大值像素所在的坐标。

def mean_pool(self,input_map,pool,front_delta,deriv=False):
    N,C,W,H=ipnput_map.shape
    P_W,P_H=tuple(pool)
    if(deriv=False):
        feature_map=np.zeros((N,C,W/P_W,H/P_H))
        feature_map=block_reduce(input_map,tuple((1,1,P_W,P_H)),func=np.mean)
        return feature_map
    else:
        back_delta=np.zeros((N,C,W,H))
        back_delta=front_delta.repaet(P_W,axis=2).repeat(P_H,axis=3)
        back_delta/=(P_W*P_H)
        return back_delta

relu反向传播

$$relu(x)=\begin{cases} x,x>0\\ 0,x\leq0 \end{cases}$$

$$ \delta_{Relu(x)}=\begin{cases} 1,x>0\\ 0.x\leq0 \end{cases} $$

def relu(self,x,front_delta=None,deriv=False):
    if(deriv==False)：
        return x*(x>0)
    else:
        return front_delta*1.0*(x>0)

zxrobot / lenet Goto Github PK

lenet's Introduction

全连接层的反向传播

卷积层的反向传播

池化层的反向传播

平均池化

最大池化

relu反向传播

lenet's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent