Giter Site home page Giter Site logo

visualize-ml / book5_essentials-of-probability-and-statistics Goto Github PK

View Code? Open in Web Editor NEW
2.4K 28.0 511.0 250.89 MB

Book_5_《统计至简》 | 鸢尾花书:从加减乘除到机器学习;上架!

Python 17.46% Jupyter Notebook 82.54%
machine-learning multivariate-statistics pca regression statistics

book5_essentials-of-probability-and-statistics's Introduction

book5_essentials-of-probability-and-statistics's People

Contributors

visualize-ml avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

book5_essentials-of-probability-and-statistics's Issues

Book5_Ch14_再谈随机变量

第9页(27)式应该是[0,1].T
图2~7的sigma_y应该加上平方
第17页: '和马氏距离为 1 的矩形相切...' 应该是'和马氏距离为 1 的椭圆相切... '
第17页: '上一章提到过,图 12中这个大矩形的面积...' 应该是'这个最小矩形的面积...'

Book05_Ch09_Page3

”回顾上一章介绍”应为"回顾第七章介绍",另外在第七章中介绍正态分布时是否可以补充棣莫弗(Abraham de Moivre)在求二项分布的渐近公式时得到正态分布的过程。

Book5_Ch23_马氏距离

第5页最上方应该是: 3)马氏距离
第8页'旋转椭圆': 前面应加上'第一视角'. 另外,为了和23.3中的'正椭圆'相匹配,这里应该叫'斜椭圆'吧?
书中涉及到二维相关的'等高线'建议都改成'等距线'吧.

Book05_Ch12_Page4

最后一句话‘图2同时比较联合PDF,边缘PDF...’,这里的边缘PDF根据上下文应是随机变量 Y 的边缘概率密度,不然和图2以及上文的内容对不上,因为前面是 $f_{X|Y}(x|y=2)$ 所有应把最后一句话中的‘边缘PDF $f_X(x)$’ 改为 ‘边缘PDF $f_Y(y)$

一些翻译和符号问题

  1. 我注意到你把数据结构dataframe翻译为“数据帧”,但是"数据帧"的英文原名叫data frame(中间有一个空格),是计算机网络中的一个术语,和dataframe毫无关系。希望能采用其他的译名,如数据筐,或者不翻译,直接采用英文名称。
  2. cdf的翻译不一致。有些地方译为"累积分布函数",有些地方又译为"累积概率密度",应该按照英文Cumulative Distribution Function翻译为"累积分布函数"。
  3. 一些符号问题,比如第5章p16公式(23),数学教材上一般的写法是$p(X=k) = \frac{\exp{-\lambda}\lambda^k}{k!}$,通常将大写的X用来表示随机变量,取值为整数的,用字母$k$来代表。小写的$x$通常用来代表密度函数或者分布函数的自变量。
  4. 一些地方不太规范,比如第6章p16图20,坐标轴是X=x和Y=y。我能理解你是想说随机变量X,Y可能的取值,但是X=x在坐标轴上是不规范的写法。两边一个是随机变量一个是数,$X=x$在数学教材里表示样本空间$\Omega$,使得$X(\Omega)=x$

Bk5_Ch23_01.py 执行报错

执行下面2行代码时报错。。
SIGMA = iris_sns.cov()
CORR = iris_sns.corr()

ValueError: could not convert string to float: 'setosa'

Book05_Ch04 离散随机变量, 修改意见

Intro

Ref:

修改意见

在 GitHub 中 $\LaTeX$ 公式环境下, 我遇到了 \{ \} 花括号无法渲染的问题.
所以在此上传本片修改意见的 PDF 版本

统计至简 - Chap 4 离散随机变量 (Review by AntoineChn).pdf

目录 (导图)

  • typo: 思维导图的 二元 - 分布函数 分支下 joint PMF 前缺少空格

4.1 随机变量

4.2 期望

4.2 方差

勘误建议: 本节编号与上一节重复, 都是 4.2 需要修改

  • Page 15:
    • 建议
      • 原文引述
        • 统计中,样本的方差计算方法类似上式,不过要将分母中的 $n$ 换成 $n – 1$
      • 修改意见
        • 是否需要解释一句为什么?
        • 本书后面也许会涉猎 「无偏估计」这个概念? (我还没有看后面的章节)
  • page 16
    • 勘误建议
      • 引述「请大家尝试使用 (25) 计算 (20) 的方差。」
      • 意见「请大家尝试使用 (==23==) 计算 (20) 的方差。」
    • 勘误建议
      • 引述「下面我们聊聊 (25) 的几何含义」
      • 意见「下面我们聊聊 (==23==) 的几何含义」
    • 建议 (于几何意义)
      • 我认为 与解释下面的等式相比 $$\mathrm{var}(X)=\mathbb{E}\left( X^2 \right) - {\mathbb{E}\left( X \right)}^2$$ , 解释 "移项之后的加法" 更为直观: $$\mathbb{E}\left( X^2 \right) = \mathrm{var}(X) + {\mathbb{E}\left( X \right)}^2$$这个式子的的解释是: 散点相对于原点的离散程度 = 散点相对于质心的离散程度 + 质心相对于原点的偏离
      • 我认为这个解释更好的原因有二
        • 一方面, 我认为 思考 "量的累加" 比 思考 "量的减少" 更加直观.
        • 另一方面
          • 正如 期望 对应 力学中刚体的 质心 (刚体平动的惯性量)
          • 此处的 方差 对应 力学中刚体的 转动惯量 (刚体旋转的惯性量)
            • 刚体相对于原点 $\text{A}_O$ 的转动惯量 = 刚体相对于过质心的轴 $\text{A}_C$ 的转动惯量 + 质心关于 $\text{A}_O$ 的转动惯量

4.3 累积分布函数

  • 问题
    • 我无法理解 CDF 的图像 (图11)
  • 建议
    • 关于公式 (33), 我认为最后一项写作如下形式易读性更高: $$\Pr \left(\left{ X=x \right} \cap \left{ Y=y \right}\right)$$

4.4 二元离散随机变量

4.5 协方差

  • Page 21
    • 建议
      • 原文引述: $X$ 的取值为 $x^{(i)}; (i = 1, 2,\ldots, n)$
      • 修改意见: $X$$\left{ x^{(i)};\mid ; i = 1, 2,\ldots, n \right}$ 中取值
        • 原因: 我认为这样表意更清晰

4.6 边缘概率

4.7 条件概率

Page 26

  • 原文引述: 也就是说,对于 $p_{X\mid Y}\left( x\mid y \right)$,$\left{Y = y\right}$ ==是==新的样本空间。
  • 修改意见: [...], $\left{Y = y\right}$ ==定义了一个== 新的样本空间。

Page 27

  • 原文: $p_Y(2)$ 为一定值
  • 更爱建议:「$p_Y(2)$ 是一个定值」或 「$p_Y(2)$ 为定值」
    • 由于中文分词问题, 此句可能误读作 「为 + 一定 + 值」

4.8 独立性

4.9 以鸢尾花数据为例:不考虑分类标签

4.10 以鸢尾花数据为例:考虑分类标签

4.10 再谈概率 1:展开、折叠

勘误建议: 本节编号与上一节重复, 都是 4.10, 需要更新编号

Book05_Ch07_Page8

Page8最后一行‘图7所示为逻辑函数的PDF和CDF曲线随b变化’。但是对应的一元逻辑Eq(10)(11)里面并没有b参数,是不是应该随s的变化?上面拉拉普拉斯的分布里面有s参数,还是图7对应的是拉普拉斯分布里面的图?

Book5_Ch03 P30公示43在一般书上做为独立性定义的,在这本书做为推论不知是有什么特别考虑的

此处一般书上做为定义也许是从形式最简的做为出发点考虑再由此推出其他定理。这确实和我们平时的思考习惯不大一样,我以前学习的时候也受此困扰,感觉因果关系似乎反了,但是后来觉得数学本身从抽象的最简单形通过逻辑推理构造整个系统,才接受了这个因果推理关系,望您指正,不当之处请赐教。

Book5_Ch24_Page3

公式(1)上一行,一元线性回归翻译是否应为(univariate linear regression)?

15.10 产生满足特定相关性的随机数

说实话,"Cholesky分解"这一小节,我其实没有看明白这个X=ZR+EX的每一项。
这一节似乎是生成满足给定协方差矩阵的样本。首先生成矩阵Z满足N(0,I_{D*D}),这个矩阵Z怎么定义的?我们通常说满足D维高斯分布,指的是D个数的关系,这里的n * D维矩阵,是n个这样的D个数的组合吗?
我看24式左边,是样本的计算方式,等式最右边又把每个z_i当成了随机变量。

我在网上查阅的其他资料,都是利用线性变换,生成满足给定协方差矩阵的随机向量

Book5_Ch14:Page6

Book_Ch14:Page6 D维随机变量:朝单一方向投影
公式(15)上一行应为:“Y的方差var(Y)为:”

Book5 关于第十八章讲证据因子

有个疑问你书里没有提到,最好解释一下,为啥计算贝叶斯分类时候的分母的证据因子需要用全概率定理,引入先验概率。
我的理解要计算fx(x), 跟C无关,那我直接用全部的数据样本用KDE得到fx(x)的边缘概率分布不就得了,为什么还需要分成三个C单独算完了再加起来,引申到后面贝叶斯推断为啥分母要积分,直接算一个fx(x)不行吗?本来也跟theta无关

作者您好,请问Book5_Ch02_Python_Codes中的iris数据集来自哪里呀,方便提供吗?

我从网上找了一个iris数据集,数据集格式为图中所示,sepal_length,sepal_width,petal_length,petal_width,species这五列。
image

运行代码的时候,显示116行代码:sns.histplot(iris_sns,x="price",y="cut",bins=20)中,ValueError: Could not interpret value price for x. An entry with this name does not appear in data.

怀疑是网上的数据集iris中缺少了price这一列,所以请问您方便提供您使用的数据集吗?

Book5_Ch03 Equation11

您好,公式11的样本空间枚举是否存在错误?
缺少行坐标为6的样本值

Book05_Ch08_Page15 Eq(25)

Eq(25) 右边第一项 $(x_2 -E(X_2|X_1=6.5))$ 这里少了平方,因为这里是计算条件方差 $var(X_2|X_1=6.5)$

Book5 Ch02

Book5 Ch02 Page8 第一段 应该是右上角和左下角都为6幅子图?

Book5_Ch18_贝叶斯分类

第13页: '有了本节前文联合概率和证据因子,我们可以获得后验概率密度曲线...'
应该去掉'密度'二字吧?

Book05_Ch08_Page32

Eq(63)有一点小小的瑕疵,积分公式漏掉了 $dx_2$$dx_1$
若改成如下形式可能可以减少歧义的发生
$\int_{x_2}f_{X1,X2}(x_1,x_2)dx_2=f_{X1}(x_1)$
$\int_{x_1}f_{X1,X2}(x_1,x_2)dx_1=f_{X2}(x_2)$

第四章节号错误

4.2有两个
另外想知道作者学这么多东西花了多久,很羡慕你能写出这么好的入门书籍。

Book5_CH00_page2

拿破仑曾说“数学的日臻完善和这个国强民富息息相关。 ” 是否改为 拿破仑曾说“数学的日臻完善和这个国强民富息息相关”。 更好(调换右引号与句号的位置)?

”历史是过去,又属于现在,同时在指引未来。 ” 这里的左引号似乎是错的,且是否改为 “历史是过去,又属于现在,同时在指引未来 ” 。 更好(调换右引号与句号的位置)?

公式错误

Chapter 4, Page 12,
公式(12),应该是: 1x1/6 + 2x1/6 + ... + 6x6/6 = 3.5

Book5_Ch14_Page8

公式(25)是否应为var(y) = vTΣXv=... 而非var(y) = vTvar(X)v = ... ?

Book5_Ch06_连续随机变量

第26页图35(a)中的注释应该是: 面积Area=fx2(x2=5.0), 边缘fx2(x2)
第36页'条件概率归一化'中的'连续': 第二个公式应该是dy

Book05_Ch09_Page18

图21和22分别是比较CDF和ECDF/比较inverse ECDF和CDF,那么图中那两种LineStyle表示不同的线,是不是用legend来表示不同的Distribution Functions会更高呢,感觉目前只标一个CDF或者CDF在x-axis或者y-axis会让读者会有一点懵

Book5_Chapter23_Page3_Eq.(6)

单特征情况下,Eq.(6)的马氏距离d的运算公式中x为什么不是x vector-斜体加粗小写,而是完全的标量运算?
是否是Eq.(5)中,x=[x1,x2,...,xD]T?

Book05_Ch17_Page5

在介绍kernel density estimation中(第一段),提到在递5章用高斯核密度估计过鸢尾花单一特征概率密度,但是第五章关于离散分布的介绍中例子大都才用的兔鸡猪和抛硬币的例子,并没有提到鸢尾花的例子,这里是否存在笔误?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.