Giter Site home page Giter Site logo

solutions's People

Contributors

xpqiu avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

solutions's Issues

习题5-6

题目

计算函数𝑦 = max(𝑥1, ⋯ , 𝑥𝐷)和函数𝑦 = arg max(𝑥1, ⋯ , 𝑥𝐷)的梯度.

解答

以D=2进行分析

  1. 对于 y = max(x1, x2)
    当 x1 > x2 时,y=x1,梯度为(1, 0)
    当 x1 < x2 时,y=x2,梯度为(0, 1)
    当 x1 = x2 时,y不可导

  2. 对于 y = argmax(x1, x2)
    当 x1 > x2 时,y=1,梯度为(0, 0)
    当 x1 < x2 时,y=2,梯度为(0, 0)
    当 x1 = x2 时,y不可导

习题6-3

题目

习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时, 分析其可能存在梯度爆炸的原因并给出解决方法.

image

解答

image

习题3-7

要注意的是,Softmax回归中使用的𝐶个权重向量是冗余的,即对所有的 权重向量都减去一个同样的向量𝒗,不改变其输出结果.因此,Softmax 回归往往需要使用正则化来约束其参数.此外,我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题.

不加入正则化项限制权重向量的大小, 可能造成权重向量过大, 产生上溢.

习题2-3

代数里面的定理
Rank(AB) <= min{Rank(A),Rank(B)}
证明:
对B进行分块表示为:B = (b1,b2,...,bn)
AB = (Ab1,Ab2,...,Abn) = C
C是B的线性组合
则Rank(B)<Rank(C)
同理Rank(A) < Rank(C)
证毕

习题5-7

空洞卷积中,卷积核大小为K,膨胀率为D,求P,使得卷积为等宽卷积

答:
根据等宽卷积:
(M - K' + 2P)/S + 1 = M,其中S= 1,
K' = K + (K-1)(D-1),
求得 :
P = (K-1)D/2

习题6-1

题目

习题6-1 分析延时神经网络、卷积神经网络和循环神经网络的异同点.

解答

  1. 延时神经网络

image

建立一个额外的延时单元,用来存储网络的历史信息

  1. 卷积神经网络

延时神经网络去掉红框中的结构(上图),即可得到卷积神经网络

  1. 循环神经网络

image

循环神经网络通过使用带自反馈的神经元,能够处理任意长度的时序数据。

习题5-7

题目

忽略激活函数, 分析卷积网络中卷积层的前向计算和反向传播( 公式(5.39)) 是一种转置关系.

image

解答

IMG_20220103_102739

习题5-2

题目

证明宽卷积具有交换性

解答

image

习题8-4

习题 8-4 证明 Hopfield 网络的能量函数随时间单调递减
异步更新时这个命题比较好证明
同步更新时要如何证明呢?网上也没找到相关的资料

习题5-8

题目

习题5-8 在空洞卷积中, 当卷积核大小为𝐾, 膨胀率为𝐷时, 如何设置零填充𝑃 的值以使得卷积为等宽卷积.
image

解答

卷积核大小为𝐾, 膨胀率为𝐷时,相当于卷积核的大小为:(k-1)*D + 1 = K'
则填充P = (K' - 1) / 2 = (K-1) * D / 2

习题4-5

4-5

from tensorflow import keras
from tensorflow.keras import layers
L=3
N=18
m=3
network=keras.Sequential([])
for _ in range(L):
    network.add(layers.Dense(N/L))
    network.add(layers.ReLU())
network.add(layers.Dense(1))
network.build(input_shape=(None,m))
network.count_params()==N+1+(L-1)*(N/L)*(N/L)+m*N/L+N/L

习题3-3

没太明白这题的意思, 抛砖引玉吧
3-3

习题6-2

题目

习题6-2 推导公式(6.40)和公式(6.41)中的梯度.
image

解答

image

image
image

image

习题5-5

题目

对于一个二维卷积, 输入为3 × 3, 卷积核大小为2 × 2, 试将卷积操作重写为仿射变换的形式.(参见公式(5.45))

解答

公式(5.45)
image

设 x = (a11, a12, a13, a21, a22, a23, a31, a32, a33)
则有
w1 = (w11, w12, 0, w21, w22, 0, 0, 0, 0 )
...

故有
w =
image

习题2-1

分析为什么平方损失函数不适用于分类问题.

分类问题中的标签,是没有连续的概念的。每个标签之间的距离也是没有实际意义的,所以预测值和标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。

比如分类 1,2,3, 真实分类是1, 而被分类到2和3错误程度应该是一样的, 但是平方损失函数的损失却不相同.

习题 5-4

二维卷积, 输入 3 x 3, 卷积核大小 2 x 2, 仿射变换形式:

z = w ⊗ x
其中,
w = [[w1, w2, 0],
[0, w1, w2],
[w2, 0, w1]]

习题5-3

题目

分析卷积神经网络中用1 × 1的卷积核的作用.

解答
  1. 降维(减少参数)
    在Inception网络中
    image
    使用 1 × 1 的卷积来减少特征映射的深度

  2. 升维(使用最少的参数拓宽维度)
    如下的ResNet网络结构图
    image
    右侧最后一层使用 1 × 1 × 256 的卷积核来将输出的64维提升到 256 维
    且只需要 6411*256 个参数

  3. 跨通道信息交互
    实现升维和降维的操作,其实就是不同通道之间的线性组合,这就是跨通道信息交互

  4. 增加非线性特性
    每一个卷积操作之后会添加一个非线性激活函数,使用 1 × 1 的卷积核可以在保持特征图尺度不变的情况下增加非线性特性

习题4-8

将 w​ 初始化为 0 会使得同一层的神经元在计算时没有区别性, 具有同样的梯度, 产生同样的权重更新.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.