Comments (54)
@Requiemfan 同学你好,你截图部分下方的那句话有交代。
from pumpkin-book.
@davidzhr 是的,似然项本身就没有固定写法,你可以看我南瓜书里面额外给出了另一种似然项的写法,这两种写法都是对的。
from pumpkin-book.
@IMYR666 已发,这个区别建议百度“矩阵微分 分子布局 分母布局” :)s
from pumpkin-book.
我来提供一个3.10的更简便求导法。方法采用了矩阵微分中,对标量函数的迹函数进行微分,得到对行向量求导的雅克比矩阵,转置后得到对列向量求导的梯度矩阵。参考张贤达的《矩阵分析与应用》第三章第2节。
from pumpkin-book.
我能不能把红色方框 看做一个整体M 先对M求导 然后求M对w的导数 这样可以吗?
计算是这样的 和书上的不一样 这是为什么?
from pumpkin-book.
@SunshineJZJ 同学你好,请把你的详细推导过程发出来看一下
from pumpkin-book.
from pumpkin-book.
@SunshineJZJ 同学你好,西瓜书上的矩阵微分公式默认采用分母布局,所以你第2行的第一个等号后面的那两个偏导数的前后位置需要交换,理由参见打开这个链接https://en.wikipedia.org/wiki/Matrix_calculus#Vector-by-vector_identities
以后看到的表格的倒数第二个公式
from pumpkin-book.
from pumpkin-book.
from pumpkin-book.
@zxcvs 同学你好,已经补充进去了,但是我建议你还是先自己动手试推一下再看,因为这两个公式的推导并不复杂。
from pumpkin-book.
from pumpkin-book.
还有专家在吗? 为什么 3.25 可以推导出 3.26. 没看明白。能帮忙解答一下吗
from pumpkin-book.
@davidzhr 同学你好,3.25是对数似然函数,3.26只是似然函数中的似然项而已,你是不明白3.26那个似然项为什么那么写吗?
from pumpkin-book.
是的, 前面假设了 P1, P0, 3.26 直接给出了一般化的公式, 我理解这个地方也只是 似然项的一个假设情况而已, 不知道对不对?
from pumpkin-book.
谢谢, 看到了, 谢谢解答。
from pumpkin-book.
hi @Sm1les
刚看了3.27 的证明。
没看明白由y=1, y=0 的两式综合所得 3.27的, 反倒是下面一种情况的似然项, 是严格的数据推导得到 3.27.
from pumpkin-book.
@davidzhr 这个综合可得就是一个恒等变换,你把综合可得得到的式子里面的y_i分别取值为0和1你就会发现和上面那个式子是等价的。
from pumpkin-book.
好的, 谢谢
from pumpkin-book.
您好!
请问根据式(3.45)如何求得的W的闭式解?在我的理解里不同的特征向量应该对应不同的特征值呀,那样等式3.45不就无法成立了吗?
谢谢!
from pumpkin-book.
@dlmdlmacy 3.45下面有句话,取N-1个最大的特征值对应的特征向量
from pumpkin-book.
@dlmdlmacy 3.45下面有句话,取N-1个最大的特征值对应的特征向量
感谢您的回复!但我还是有一点不明白:
在我的理解里,这个求W的过程是将W看成几个列向量w1、w2...
然后问题分解为Sw^(-1)Sbw1=λ1w1、Sw^(-1)Sbw2=λ2w2……
所以W由Sw^(-1)*Sb的特征向量组成,不知道这样的理解是否准确?
如果按照这样理解,每一个列向量所对应的特征值都不相同,但是式(3.45)中只有一个λ,如何满足式(3.45)呢?
谢谢!
from pumpkin-book.
@dlmdlmacy 这个需要你参照3.37来理解,λ并不重要,我们求的w只关心方向,不关心大小
from pumpkin-book.
@dlmdlmacy 这个需要你参照3.37来理解,λ并不重要,我们求的w只关心方向,不关心大小
好的,谢谢!
from pumpkin-book.
@Sm1les 您好,请问公式3.10如何得出的呀?
from pumpkin-book.
@Sm1les Sorry,是公式3.11
from pumpkin-book.
@Sm1les 谢谢,因为一个地方理解错误所以致错,已解决。
from pumpkin-book.
@Harvestning ok,解决了就好 :)s
from pumpkin-book.
请问这个公式,结果为什么是a, 而不是aT,我参考的是:
from pumpkin-book.
@IMYR666 同学你好,我写的a是列向量,你看的A是矩阵,此外,建议你参考 https://en.wikipedia.org/wiki/Matrix_calculus 这个看
from pumpkin-book.
@IMYR666 同学你好,我写的a是列向量,你看的A是矩阵,此外,建议你参考 https://en.wikipedia.org/wiki/Matrix_calculus 这个看
这里列向量和矩阵不一样吗?这是我理解的公式,能讲下为什么不对吗
另外我打开链接都是乱码,等了好久都是这样
from pumpkin-book.
from pumpkin-book.
@IMYR666 同学你好,你理解的是对的,我刚回答的不够严谨,把你截图里面的维度m设成1是可以的,你写出来的公式也是对的,之所以和我写的不同的原因在于我用的是分母布局,你用的是分子布局,西瓜书以及本书默认都用的分母布局;参考链接打开乱码的原因是需要“科学上网才能打开”,你留个邮箱,我可以发一份这个网页的pdf给你 :)s
from pumpkin-book.
@1875847202 同学你好,你的图好像没上传成功?
from pumpkin-book.
@IMYR666 同学你好,你理解的是对的,我刚回答的不够严谨,把你截图里面的维度m设成1是可以的,你写出来的公式也是对的,之所以和我写的不同的原因在于我用的是分母布局,你用的是分子布局,西瓜书以及本书默认都用的分母布局;参考链接打开乱码的原因是需要“科学上网才能打开”,你留个邮箱,我可以发一份这个网页的pdf给你 :)s
好的,邮箱:[email protected], 再问下分子布局,分母布局有什么区别吗,之前好像没听过,谢谢
from pumpkin-book.
@IMYR666 已发,这个区别建议百度“矩阵微分 分子布局 分母布局” :)s
好的,感谢大佬
from pumpkin-book.
请问对于3.45,为什么要选择最大的广义特征值呢,我认为只要是非零特征值都可以满足这个公式,比如我是不是可以选择特征空间维数最少的那个特征值,或者选择选择多个特征值。另外W中特征向量的选择有没有什么要求,W本身有N-1列,但却选择d‘
个向量,那么会有向量线性相关吧
from pumpkin-book.
@ChenZQ-nano 同学你好,选择N-1个最大的广义特征值是为了使得公式3.44这个优化目标达到最大值,原因我在近期的直播里面有讲(直播回放地址:https://www.bilibili.com/video/BV1Mh411e7VU?p=5 ,在广义瑞利熵那部分讲的)。W本身有N-1列表示选取N-1个向量,你的d'是从哪儿来的?
from pumpkin-book.
@ChenZQ-nano 严谨一点:不是选择N-1个最大的广义特征值,而是选择N-1个最大的广义特征值所对应的广义特征向量
from pumpkin-book.
您好,请问在P58页公式3.19下一行,为什么可以将y视为样本x作为正例的可能性?我无法找到两者的必然联系。
from pumpkin-book.
@Harvestning 这就是一个数学假设而已,你可以接受这个假设,也可以不接受
from pumpkin-book.
@Harvestning 这就是一个数学假设而已,你可以接受这个假设,也可以不接受
那这样的话,用对数几率回归作分类的话是很不严谨的。
from pumpkin-book.
你好,有一个关于ω的问题,如果是对单样本(特征数量n>=2)进行拟合,我将ω理解为对应该样本的各个属性"权重"向量,维度等于n。
如果对于多样本,如图所示
如果有i个样本的话,难道不应该有i个ω吗?(每一个 x_i 有一个与之对应的 ω_i,看西瓜书上写的貌似像 i 个样本共用1个ω的样子,讲道理每个样本应该拟合一个特有的空间向量呀!实在困惑,是我哪里想错了吗?)
from pumpkin-book.
@IianWang 同学你好,w和样本个数无关,一个模型(也即f(x))对应一个w,你貌似对【模型】这个概念还没理解,建议再仔细看一下西瓜书第1章,或者看一下我在B站讲的第3章的视频,视频的开头我有举例子,视频地址:https://www.bilibili.com/video/BV1Mh411e7VU?p=2
from pumpkin-book.
你好,请问式(3.38)中,要重新调整w
使得(u_0-u_1)^T \dot w = \lambda
的时候,岂不是破坏了原先的约束条件:w^T S_w w = 1
吗?
from pumpkin-book.
@Adiolph 同学你好,这里你可以在求出w以后,再通过手动代值法调整lambda和w的大小来使得原先的约束条件成立,不过此时你会发现lambda是一个标量,且是我们不需要关心的,w这个向量你也只能去改变它的大小,而不能改变它的方向,而在线性判别分析这个问题中我们要求的也只是它的方向,它的大小无所谓,所以就没有必要再去为了严格满足原先的约束条件而去调整lambda和w的大小了,不知道你是否有看我的配套视频讲解,我在里面有详细交代,在此附上视频讲解的地址:https://www.bilibili.com/video/BV1Mh411e7VU?p=5
from pumpkin-book.
@davidzhr 嗯嗯,我原先认为优化J
时候,我们通过定义了约束条件使得问题变为了优化w^T S_b w
。这样的话后面再改变约束的时候,岂不是让J != w^T S_b w
了,那我们在优化w^T S_b w
的时候,其实并不是在优化J
。听了你的这段描述,我发现这样只不过让J变成了J = w^T S_b w / const
,分母从1变成了另外一个不重要的常数。
之前没看视频,只看了文字推导,视频里头对广义瑞利商的介绍令人受益匪浅,现在这种问题已经可以用全新的角度(解特征向量)来理解了,感谢分享!
from pumpkin-book.
在南瓜书瓜书中的3.45中,为什么不取最大的一个特征值对应的特征向量然后重复k列也就是其中w是最大的广义特征值对应的特征向量(这样会使目标函数更小),而要取前个最大特征值对应的特征向量?并且这种取法也没有满足中的约束。西瓜书多分类的LDA的形式与《模式分类》一书中的并不相同,《模式分类》中用的是行列式并不是是tr():
from pumpkin-book.
救救孩子吧!谁能说一下LDA的标准形式和标准解法,看了很多文献和书籍都没找到这解是怎么得到的,每个文献上LDA的形式还不相同
from pumpkin-book.
@zhaoyifengf 同学你好,我也是正在学习中,这里抛砖引玉,说一下我的理解:
我认为这个高维度的广义特征值问题应该是和相似变换有某种联系的。对于相似变换而言,变换矩阵里头的各个分量要是线性无关的,否则非对角会出现非零值。类似的,LDA中W的各个分量也需要是线性无关的。矩阵的trace和determine在相似变换中都是保持不变的,因此选择trace还是det都可以作为特征量。
from pumpkin-book.
南瓜书里面的公式3-9
这里的增广矩阵内为什么没有i?我看西瓜书里面给出的是下面这样的
是不是写错了
from pumpkin-book.
@Link2Truth 同学你好,这里确实是漏掉了角标i,这就更正,感谢你的反馈 :)
from pumpkin-book.
from pumpkin-book.
typo: 3.4.5 广义征值
应为广义特征值
。
from pumpkin-book.
Related Issues (20)
- 在线的链接无法打开 HOT 1
- ROC曲线为什么真正例率与假正例率可以同时增加 HOT 2
- 机器学习
- 南瓜书中的公式2.21的讲解感觉有点晦涩了 HOT 1
- 公式(12.39)的解释有问题 HOT 2
- 公式12.36
- released版本的pdf中有一处错误
- 西瓜書
- 书中 公式(3.35) 公式(3.36)怎么没有啊! HOT 1
- 公式16.16 HOT 2
- 公式16.16
- 进不去链接 HOT 5
- 式 2.27 HOT 2
- 10.17 求解CPA时的问题
- 关于公式3-9
- @yanglei-github 事件{f(x)=1}和{f(x)=-1}已经是完备事件组了,求期望是 权重(概率)*值,然后P(f(x)=1|x)是概率,e^(-H(x)f(x))为值,又知道f(x)=1,那么值就是e^(-H(x)),然后把P(f(x)=-1|x)也加上就出现了上述式子
- 第五章 式(5.2) 中最后推导梯度的时候,\hat(yi)也应该是关于w的函数,没有对其求导,直接当成常数处理了,这似乎是不正确的。 HOT 1
- > @wanyixue 同学你好,损失函数L是关于w和theta的函数,只有w和theta是未知的变量,\hat(yi)和yi都是已知量,所以不用对他们求导,因此也不存在不可导一说
- There are no page numbers in the most recent PDF file pages HOT 4
- v2.0.0版本的PDF中10.5.1节有关主成分分析的推导流程有处错误 HOT 2
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from pumpkin-book.