visualize-ml / book5_essentials-of-probability-and-statistics Goto Github PK

Book_5_《统计至简》 | 鸢尾花书：从加减乘除到机器学习；上架！

Python 17.46% Jupyter Notebook 82.54%

machine-learning multivariate-statistics pca regression statistics

book5_essentials-of-probability-and-statistics's Introduction

《统计至简》五折入口： https://zhuanlan.zhihu.com/p/634253719
《数学要素》五折入口： https://zhuanlan.zhihu.com/p/620243026
《矩阵力量》五折入口： https://zhuanlan.zhihu.com/p/634253719

看个人情况，开源资源，永久有效哈。

纠错多的同学会得到赠书，以示感谢。

book5_essentials-of-probability-and-statistics's People

Contributors

Stargazers

Watchers

Forkers

18959263172 highoover lnsongxf tchigher lewis2222 mu-l varlardohaeris math-learnings dxc-dxc ssglory shijieliu-pr liushuhui84 eincheng xumeng914 kevinlee1984 bingoabs phyphyphy englianhu whq19960120 jiang13 melodylail zilianc nareld arvery ldkwebsite gzdxgeorge pink-l bukebuhao realasking yaocoo oswaldxia qinghuasiming sofiane-20241050 donnow louie-lou jameb992g3 archycc ch1993128 only945me haolun123 wahello irisbookcopy baihongliang zjstone 1pansheng lixiang117423 amadus-dev 3118004702 leon-zheng kidkid168 jinwt1984 yuanpei0208 werwolf72 zhaoxubing thurday arontian2018 wangmin0707 feigeliudan01 moqingxinai polokk xilin2020 zlxcobe monkeydeking lizhen-dlut t0nych3n nab-iak xjlvshan small-white-fish suyumax2023 goamry yifree hunter3900 zhuou99 eeldercat zy9306 nanohaikaros alckn961 cclee627 sysadminxxx ccplxx stierxu davidmans funny1dog 1085231533 fragon-size akalitokyo zeroyuan814 isumi233 maybelaterornot xu-b tonyluo oywpan enkilee lizhaopeng1996 crbrave otacon8818 rich-sz xiaohangguo vicentzhao sungyow

book5_essentials-of-probability-and-statistics's Issues

Book5_Ch14_再谈随机变量

第9页(27)式应该是[0,1].T
图2~7的sigma_y应该加上平方
第17页: '和马氏距离为 1 的矩形相切...' 应该是'和马氏距离为 1 的椭圆相切... '
第17页: '上一章提到过，图 12中这个大矩形的面积...' 应该是'这个最小矩形的面积...'

Book05_Ch09_Page3

”回顾上一章介绍”应为"回顾第七章介绍"，另外在第七章中介绍正态分布时是否可以补充棣莫弗（Abraham de Moivre）在求二项分布的渐近公式时得到正态分布的过程。

Book5_CH02 表格描述排版错位

表 1. 鸢尾花四阶矩的文字描述在 p.29，表格本体在 p.30

Book5_Ch23_马氏距离

第5页最上方应该是: 3)马氏距离
第8页'旋转椭圆': 前面应加上'第一视角'. 另外,为了和23.3中的'正椭圆'相匹配,这里应该叫'斜椭圆'吧?
书中涉及到二维相关的'等高线'建议都改成'等距线'吧.

Book05_Ch12_Page4

最后一句话‘图2同时比较联合PDF，边缘PDF...’，这里的边缘PDF根据上下文应是随机变量 Y 的边缘概率密度，不然和图2以及上文的内容对不上，因为前面是 $f_{X|Y}(x|y=2)$ 所有应把最后一句话中的‘边缘PDF $f_X(x)$’ 改为 ‘边缘PDF $f_Y(y)$’

一些翻译和符号问题

我注意到你把数据结构dataframe翻译为“数据帧”，但是"数据帧"的英文原名叫data frame(中间有一个空格)，是计算机网络中的一个术语，和dataframe毫无关系。希望能采用其他的译名，如数据筐，或者不翻译，直接采用英文名称。
cdf的翻译不一致。有些地方译为"累积分布函数"，有些地方又译为"累积概率密度"，应该按照英文Cumulative Distribution Function翻译为"累积分布函数"。
一些符号问题，比如第5章p16公式(23)，数学教材上一般的写法是$p(X=k) = \frac{\exp{-\lambda}\lambda^k}{k!}$，通常将大写的X用来表示随机变量，取值为整数的，用字母$k$来代表。小写的$x$通常用来代表密度函数或者分布函数的自变量。
一些地方不太规范，比如第6章p16图20，坐标轴是X=x和Y=y。我能理解你是想说随机变量X，Y可能的取值，但是X=x在坐标轴上是不规范的写法。两边一个是随机变量一个是数，$X=x$在数学教材里表示样本空间$\Omega$，使得$X(\Omega)=x$

Ch04 | Page7 | 4.1 随机天地不仁，以万物为刍狗 | 随机变量的函数

特别地，如果 h() 为线性函数，从X 到 Y 进行的是线性变换，比如：
$Y = h( X ) = aX + b$

因为式中有b，此处是否应为“从X 到 Y 进行的线性映射（仿射变换，原点有可能改变）”？

ch04图15

这五个值是不是颠倒了

Bk5_Ch23_01.py 执行报错

执行下面2行代码时报错。。
SIGMA = iris_sns.cov()
CORR = iris_sns.corr()

ValueError: could not convert string to float: 'setosa'

Book5_Ch16_频率派统计推断

第19页(33)式: 式中应该是根号n
第19页表1: 表头'左尾'和'右尾'颠倒了

Book05_Ch04 离散随机变量, 修改意见

Intro

Ref:

文件: Book5_Ch04_ 离散随机变量 __ 统计至简 __ 鸢尾花书 __ 从加减乘除到机器学习.pdf
版本: 10dc2e6
Bilibili (尚未发布 2023-07-14): https://space.bilibili.com/513194466/video

修改意见

在 GitHub 中 $\LaTeX$ 公式环境下, 我遇到了 \{ \} 花括号无法渲染的问题.
所以在此上传本片修改意见的 PDF 版本

统计至简 - Chap 4 离散随机变量 (Review by AntoineChn).pdf

目录 (导图)

typo: 思维导图的二元 - 分布函数分支下 joint PMF 前缺少空格

4.1 随机变量

无

4.2 期望

无

4.2 方差

勘误建议: 本节编号与上一节重复, 都是 4.2 需要修改

Page 15:
- 建议
  - 原文引述
    - 统计中，样本的方差计算方法类似上式，不过要将分母中的 $n$ 换成 $n – 1$。
  - 修改意见
    - 是否需要解释一句为什么?
    - 本书后面也许会涉猎「无偏估计」这个概念? (我还没有看后面的章节)
page 16
- 勘误建议
  - 引述「请大家尝试使用 (25) 计算 (20) 的方差。」
  - 意见「请大家尝试使用 (==23==) 计算 (20) 的方差。」
- 勘误建议
  - 引述「下面我们聊聊 (25) 的几何含义」
  - 意见「下面我们聊聊 (==23==) 的几何含义」
- 建议 (于几何意义)
  - 我认为与解释下面的等式相比 $$\mathrm{var}(X)=\mathbb{E}\left( X^2 \right) - {\mathbb{E}\left( X \right)}^2$$ , 解释 "移项之后的加法" 更为直观: $$\mathbb{E}\left( X^2 \right) = \mathrm{var}(X) + {\mathbb{E}\left( X \right)}^2$$这个式子的的解释是: 散点相对于原点的离散程度 = 散点相对于质心的离散程度 + 质心相对于原点的偏离
  - 我认为这个解释更好的原因有二
    - 一方面, 我认为思考 "量的累加" 比思考 "量的减少" 更加直观.
    - 另一方面
      - 正如期望对应力学中刚体的质心 (刚体平动的惯性量)
      - 此处的方差对应力学中刚体的 转动惯量 (刚体旋转的惯性量)
        
        刚体相对于原点 $\text{A}_O$ 的转动惯量 = 刚体相对于过质心的轴 $\text{A}_C$ 的转动惯量 + 质心关于 $\text{A}_O$ 的转动惯量

4.3 累积分布函数

问题
- 我无法理解 CDF 的图像 (图11)
建议
- 关于公式 (33), 我认为最后一项写作如下形式易读性更高： $$\Pr \left(\left{ X=x \right} \cap \left{ Y=y \right}\right)$$

4.4 二元离散随机变量

无

4.5 协方差

Page 21
- 建议
  - 原文引述: $X$ 的取值为 $x^{(i)}; (i = 1, 2,\ldots, n)$
  - 修改意见: $X$ 在 $\left{ x^{(i)};\mid ; i = 1, 2,\ldots, n \right}$ 中取值
    - 原因: 我认为这样表意更清晰

4.6 边缘概率

无

4.7 条件概率

Page 26

原文引述: 也就是说，对于 $p_{X\mid Y}\left( x\mid y \right)$，$\left{Y = y\right}$ ==是==新的样本空间。
修改意见: [...], $\left{Y = y\right}$ ==定义了一个== 新的样本空间。

Page 27

原文: $p_Y(2)$ 为一定值
更爱建议:「$p_Y(2)$ 是一个定值」或「$p_Y(2)$ 为定值」
- 由于中文分词问题, 此句可能误读作「为 + 一定 + 值」

4.8 独立性

无

4.9 以鸢尾花数据为例：不考虑分类标签

无

4.10 以鸢尾花数据为例：考虑分类标签

无

4.10 再谈概率 1：展开、折叠

勘误建议: 本节编号与上一节重复, 都是 4.10, 需要更新编号

Book5_Ch05 图4 圆周率小数点后数字的分布

图中的频数总数有问题（应该是从1000位开始，不是100）

Book05_Ch07_Page8

Page8最后一行‘图7所示为逻辑函数的PDF和CDF曲线随b变化’。但是对应的一元逻辑Eq(10)(11)里面并没有b参数，是不是应该随s的变化？上面拉拉普拉斯的分布里面有s参数，还是图7对应的是拉普拉斯分布里面的图？

Book5_Ch03 P30公示43在一般书上做为独立性定义的，在这本书做为推论不知是有什么特别考虑的

此处一般书上做为定义也许是从形式最简的做为出发点考虑再由此推出其他定理。这确实和我们平时的思考习惯不大一样，我以前学习的时候也受此困扰，感觉因果关系似乎反了，但是后来觉得数学本身从抽象的最简单形通过逻辑推理构造整个系统，才接受了这个因果推理关系，望您指正，不当之处请赐教。

Book05_Ch04图45最右边标识0.07应改为0.02

Book5_Ch24_Page3

公式（1）上一行，一元线性回归翻译是否应为（univariate linear regression）?

15.10 产生满足特定相关性的随机数

说实话，"Cholesky分解"这一小节，我其实没有看明白这个X=ZR+EX的每一项。
这一节似乎是生成满足给定协方差矩阵的样本。首先生成矩阵Z满足N(0,I_{D*D})，这个矩阵Z怎么定义的？我们通常说满足D维高斯分布，指的是D个数的关系，这里的n * D维矩阵，是n个这样的D个数的组合吗？
我看24式左边，是样本的计算方式，等式最右边又把每个z_i当成了随机变量。

我在网上查阅的其他资料，都是利用线性变换，生成满足给定协方差矩阵的随机向量

Book_Ch8 p4,p5图片和文字不匹配的问题

Book5_Ch14:Page6

Book_Ch14:Page6 D维随机变量：朝单一方向投影
公式（15）上一行应为：“Y的方差var(Y)为：”

Book5_Ch20_贝叶斯推断入门

第6页: '但是为了得出真正的后验概率密度' 应去掉'密度'

Book5_Ch04里p5"和函数一样概率质量函数的输入也可以不止一个“这句话里的”输入“应改为”输入变量“或”输入随机变量“

感觉有歧义啊，谢谢

谢谢，如此好的资源。还没有看，请问有em算法和变分估计的章节么？

Book5_Ch15_蒙特卡洛模拟

第15页(20)式: rho前面应乘以2

BOOK5_CH10.3_第263页图10.11

Fx,y(x,y)剖面线图，右图纵轴坐标最大值应该是1，印成0.1了。
PDF同一个图也是同样错误

Book5_02p19众数的缺点是可能存在多个众数或者无众数的情况，而且受极端值的影响较大。这句话似乎有问题，一般而言平均值易受极端值影响，众数反而不易受影响

Book5 关于第十八章讲证据因子

有个疑问你书里没有提到，最好解释一下，为啥计算贝叶斯分类时候的分母的证据因子需要用全概率定理，引入先验概率。
我的理解要计算fx(x), 跟C无关，那我直接用全部的数据样本用KDE得到fx(x)的边缘概率分布不就得了，为什么还需要分成三个C单独算完了再加起来，引申到后面贝叶斯推断为啥分母要积分，直接算一个fx(x)不行吗？本来也跟theta无关

作者您好，请问Book5_Ch02_Python_Codes中的iris数据集来自哪里呀，方便提供吗？

我从网上找了一个iris数据集，数据集格式为图中所示，sepal_length，sepal_width,petal_length,petal_width,species这五列。

运行代码的时候，显示116行代码：sns.histplot(iris_sns,x="price",y="cut",bins=20)中，ValueError: Could not interpret value price for x. An entry with this name does not appear in data.

怀疑是网上的数据集iris中缺少了price这一列，所以请问您方便提供您使用的数据集吗？