Giter Site home page Giter Site logo

apachecn / ailearning Goto Github PK

View Code? Open in Web Editor NEW
38.4K 1.7K 11.3K 167.36 MB

AiLearning:数据分析+机器学习实战+线性代数+PyTorch+NLTK+TF2

Home Page: http://ailearning.apachecn.org/

License: Other

Python 93.01% Jupyter Notebook 1.81% Shell 0.05% HTML 0.40% CSS 2.29% Dockerfile 0.01% JavaScript 2.43%
fp-growth apriori mahchine-leaning naivebayes svm adaboost kmeans svd pca logistic

ailearning's Introduction


协议:CC BY-NC-SA 4.0

一种新技术一旦开始流行,你要么坐上压路机,要么成为铺路石。——Stewart Brand

路线图

补充

1.机器学习 - 基础

支持版本

Version Supported
3.6.x
2.7.x

注意事项:

  • 机器学习实战: 仅仅只是学习,请使用 python 2.7.x 版本 (3.6.x 只是修改了部分)

基本介绍

学习文档

模块 章节 类型 负责人(GitHub) QQ
机器学习实战 第 1 章: 机器学习基础 介绍 @毛红动 1306014226
机器学习实战 第 2 章: KNN 近邻算法 分类 @尤永江 279393323
机器学习实战 第 3 章: 决策树 分类 @景涛 844300439
机器学习实战 第 4 章: 朴素贝叶斯 分类 @wnma3mz
@分析
1003324213
244970749
机器学习实战 第 5 章: Logistic回归 分类 @微光同尘 529925688
机器学习实战 第 6 章: SVM 支持向量机 分类 @王德红 934969547
网上组合内容 第 7 章: 集成方法(随机森林和 AdaBoost) 分类 @片刻 529815144
机器学习实战 第 8 章: 回归 回归 @微光同尘 529925688
机器学习实战 第 9 章: 树回归 回归 @微光同尘 529925688
机器学习实战 第 10 章: K-Means 聚类 聚类 @徐昭清 827106588
机器学习实战 第 11 章: 利用 Apriori 算法进行关联分析 频繁项集 @刘海飞 1049498972
机器学习实战 第 12 章: FP-growth 高效发现频繁项集 频繁项集 @程威 842725815
机器学习实战 第 13 章: 利用 PCA 来简化数据 工具 @廖立娟 835670618
机器学习实战 第 14 章: 利用 SVD 来简化数据 工具 @张俊皓 714974242
机器学习实战 第 15 章: 大数据与 MapReduce 工具 @wnma3mz 1003324213
Ml项目实战 第 16 章: 推荐系统(已迁移) 项目 推荐系统(迁移后地址)
第一期的总结 2017-04-08: 第一期的总结 总结 总结 529815144

网站视频

知乎问答-爆炸啦-机器学习该怎么入门?

当然我知道,第一句就会被吐槽,因为科班出身的人,不屑的吐了一口唾沫,说傻X,还评论 Andrew Ng 的视频。。

我还知道还有一部分人,看 Andrew Ng 的视频就是看不懂,那神秘的数学推导,那迷之微笑的英文版的教学,我何尝又不是这样走过来的?? 我的心可能比你们都痛,因为我在网上收藏过上10部《机器学习》相关视频,外加国内本土风格的教程: 7月+小象 等等,我都很难去听懂,直到有一天,被一个百度的高级算法分析师推荐说: 《机器学习实战》还不错,通俗易懂,你去试试??

我试了试,还好我的Python基础和调试能力还不错,基本上代码都调试过一遍,很多高大上的 "理论+推导",在我眼中变成了几个 "加减乘除+循环",我想这不就是像我这样的程序员想要的入门教程么?

很多程序员说机器学习 TM 太难学了,是的,真 TM 难学,我想最难的是: 没有一本像《机器学习实战》那样的作者愿意以程序员 Coding 角度去给大家讲解!!

最近几天,GitHub 涨了 300颗 star,加群的200人, 现在还在不断的增加++,我想大家可能都是感同身受吧!

很多想入门新手就是被忽悠着收藏收藏再收藏,但是最后还是什么都没有学到,也就是"资源收藏家",也许新手要的就是 MachineLearning(机器学习) 学习路线图。没错,我可以给你们的一份,因为我们还通过视频记录下来我们的学习过程。水平当然也有限,不过对于新手入门,绝对没问题,如果你还不会,那算我输!!

视频怎么看?

  1. 理论科班出身-建议去学习 Andrew Ng 的视频(Ng 的视频绝对是权威,这个毋庸置疑)
  2. 编码能力强 - 建议看我们的《机器学习实战-教学版》
  3. 编码能力弱 - 建议看我们的《机器学习实战-讨论版》,不过在看理论的时候,看 教学版-理论部分;讨论版的废话太多,不过在讲解代码的时候是一行一行讲解的;所以,根据自己的需求,自由的组合。

【免费】数学教学视频 - 可汗学院 入门篇

概率 统计 线性代数
可汗学院(概率) 可汗学院(统计学) 可汗学院(线性代数)

机器学习视频 - ApacheCN 教学版

AcFun B站
优酷 网易云课堂

【免费】机器/深度学习视频 - 吴恩达

机器学习 深度学习
吴恩达机器学习 神经网络和深度学习

2.深度学习

支持版本

Version Supported
3.6.x
2.7.x

入门基础

  1. 反向传递: https://www.cnblogs.com/charlotte77/p/5629865.html
  2. CNN原理: http://www.cnblogs.com/charlotte77/p/7759802.html
  3. RNN原理: https://blog.csdn.net/qq_39422642/article/details/78676567
  4. LSTM原理: https://blog.csdn.net/weixin_42111770/article/details/80900575

Pytorch - 教程

-- 待更新

TensorFlow 2.0 - 教程

-- 待更新

目录结构:

切分(分词)

词性标注

命名实体识别

句法分析

WordNet可以被看作是一个同义词词典

词干提取(stemming)与词形还原(lemmatization)

TensorFlow 2.0学习网址

3.自然语言处理

支持版本

Version Supported
3.6.x
2.7.x

学习过程中-内心复杂的变化!!!

自从学习NLP以后才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:
  1) 国内: 就好像为了名气举办工作装逼的会议就是没有干货全部都是象征性的PPT介绍不是针对在做的各位
  2国外: 就好像是为了推动nlp进步一样分享者各种干货资料和具体的实现。(特别是: python自然语言处理2. 论文的实现: 
  1) 各种高大上的论文实现却还是没看到一个像样的GitHub项目!(可能我的搜索能力差了点一直没找到2国外就不举例了我看不懂3. 开源的框架
  1国外的开源框架:  tensorflow/pytorch 文档+教程+视频官方提供2) 国内的开源框架: 额额还真举例不出来但是牛逼吹得不比国外差!(MXNet虽然有众多国人参与开发但不能算是国内开源框架基于MXNet的动手学深度学习(http://zh.d2l.ai & https://discuss.gluon.ai/t/topic/753)中文教程,已经由沐神(李沐)以及阿斯顿·张讲授录制公开发布(文档+第一季教程+视频)。)
每一次深入都要去翻墙每一次深入都要Google每一次看着国内的说: 哈工大讯飞中科大百度阿里多牛逼但是资料还是得国外去找有时候真的挺恨的真的有点瞧不起自己国内的技术环境当然谢谢国内很多博客大佬特别是一些入门的Demo和基本概念。【深入的水平有限没看懂

1.使用场景 (百度公开课)

第一部分 入门介绍

第二部分 机器翻译

第三部分 篇章分析

第四部分 UNIT-语言理解与交互技术

应用领域

中文分词:

  • 构建DAG图
  • 动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径
  • 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题

1.文本分类(Text Classification)

文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。

下面是一些很好的初学者文本分类数据集。

  1. 路透社Newswire主题分类(路透社-21578)。1987年路透社出现的一系列新闻文件,按类别编制索引。另见RCV1,RCV2和TRC2
  2. IMDB电影评论情感分类(斯坦福)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
  3. 新闻组电影评论情感分类(康奈尔)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

有关更多信息,请参阅帖子: 单标签文本分类的数据集

情感分析

比赛地址: https://www.kaggle.com/c/word2vec-nlp-tutorial

  • 方案一(0.86): WordCount + 朴素 Bayes
  • 方案二(0.94): LDA + 分类模型(knn/决策树/逻辑回归/svm/xgboost/随机森林)
    • a) 决策树效果不是很好,这种连续特征不太适合的
    • b) 通过参数调整 200 个topic,信息量保存效果较优(计算主题)
  • 方案三(0.72): word2vec + CNN
    • 说实话: 没有一个好的机器,是调不出来一个好的结果 (: 逃

通过AUC 来评估模型的效果

2.语言模型(Language Modeling)

语言建模涉及开发一种统计模型,用于预测句子中的下一个单词或一个单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。

它是语音识别和机器翻译等任务中的前置任务。

下面是一些很好的初学者语言建模数据集。

  1. 古腾堡项目,一系列免费书籍,可以用纯文本检索各种语言。
  2. 还有更多正式的语料库得到了很好的研究; 例如: 布朗大学现代美国英语标准语料库。大量英语单词样本。 谷歌10亿字语料库

新词发现

句子相似度识别

文本纠错

  • bi-gram + levenshtein

3.图像字幕(Image Captioning)

mage字幕是为给定图像生成文本描述的任务。

下面是一些很好的初学者图像字幕数据集。

  1. 上下文中的公共对象(COCO)。包含超过12万张带描述的图像的集合
  2. Flickr 8K。从flickr.com获取的8千个描述图像的集合。
  3. Flickr 30K。从flickr.com获取的3万个描述图像的集合。 欲了解更多,请看帖子:

探索图像字幕数据集,2016年

4.机器翻译(Machine Translation)

机器翻译是将文本从一种语言翻译成另一种语言的任务。

下面是一些很好的初学者机器翻译数据集。

  1. 加拿大第36届议会的协调国会议员。成对的英语和法语句子。
  2. 欧洲议会诉讼平行语料库1996-2011。句子对一套欧洲语言。 有大量标准数据集用于年度机器翻译挑战; 看到:

统计机器翻译

机器翻译

5.问答系统(Question Answering)

问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。

下面是一些很好的初学者问题回答数据集。

  1. 斯坦福问题回答数据集(SQuAD)。回答有关维基百科文章的问题。
  2. Deepmind问题回答语料库。从每日邮报回答有关新闻文章的问题。
  3. 亚马逊问答数据。回答有关亚马逊产品的问题。 有关更多信息,请参阅帖子:

数据集: 我如何获得问答网站的语料库,如Quora或Yahoo Answers或Stack Overflow来分析答案质量?

6.语音识别(Speech Recognition)

语音识别是将口语的音频转换为人类可读文本的任务。

下面是一些很好的初学者语音识别数据集。

  1. TIMIT声学 - 语音连续语音语料库。不是免费的,但因其广泛使用而上市。口语美国英语和相关的转录。
  2. VoxForge。用于构建用于语音识别的开源数据库的项目。
  3. LibriSpeech ASR语料库。从LibriVox收集的大量英语有声读物。

7.自动文摘(Document Summarization)

文档摘要是创建较大文档的简短有意义描述的任务。

下面是一些很好的初学者文档摘要数据集。

  1. 法律案例报告数据集。收集了4000份法律案件及其摘要。
  2. TIPSTER文本摘要评估会议语料库。收集了近200份文件及其摘要。
  3. 英语新闻文本的AQUAINT语料库。不是免费的,而是广泛使用的。新闻文章的语料库。 欲了解更多信息:

文档理解会议(DUC)任务在哪里可以找到用于文本摘要的良好数据集?

命名实体识别

文本摘要

Graph图计算【慢慢更新】

知识图谱

  • 知识图谱,我只认 SimmerChan: 【知识图谱-给AI装个大脑】
  • 说实话,我是看这博主老哥写的博客长大的,写的真的是深入浅出。我很喜欢,所以就分享给大家,希望你们也喜欢。

进一步阅读

如果您希望更深入,本节提供了其他数据集列表。

  1. 维基百科研究中使用的文本数据集
  2. 数据集: 计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?
  3. 斯坦福统计自然语言处理语料库
  4. 按字母顺序排列的NLP数据集列表
  5. 该机构NLTK
  6. 在DL4J上打开深度学习数据
  7. NLP数据集
  8. 国内开放数据集: https://bosonnlp.com/dev/resource

参考

致谢

最近无意收到群友推送的链接,发现得到大佬高度的认可,并在热心的推广。在此感谢:

赞助我们

微信&支付宝

ailearning's People

Contributors

cyrilbois avatar daskisnow avatar edxzh avatar jiangzhonglian avatar joinb-ai avatar junxnone avatar sunfeilong avatar timgates42 avatar vutting4221 avatar wizardforcel avatar yhjyh avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

ailearning's Issues

运行问题!!

您好,关于推荐系统这一部分,基于item和基于user,程序是怎么运行的呢?哪几个文件属于一起的呀?当我直接运行RS-itemcf.py的时候,报错如下:
C:\software\Anaconda3\python.exe D:/python/MachineLearning-dev/src/py3.x/16.RecommenderSystems/RS-itemcf.py
File "D:/python/MachineLearning-dev/src/py3.x/16.RecommenderSystems/RS-itemcf.py", line 3
Created on 2015-06-22
^
SyntaxError: invalid syntax

Process finished with exit code 1
不知应当如何解决呢,请大神帮忙解答一下,感激不尽!!!

逻辑回归示例代码中有一处问题

上升or下降?

https://github.com/apachecn/MachineLearning/blob/master/src/py2.x/ML/5.Logistic/logistic.py 里有2个方法:

正常的梯度上升法
https://github.com/apachecn/MachineLearning/blob/f727eda8150e26cea0425b0bb17b0badb67d5b01/src/py2.x/ML/5.Logistic/logistic.py#L54

随机梯度下降
https://github.com/apachecn/MachineLearning/blob/f727eda8150e26cea0425b0bb17b0badb67d5b01/src/py2.x/ML/5.Logistic/logistic.py#L100

这2个函数的主要区别只有前者使用全量数据更新w, 后者使用一个样本更新w
那么在这里,上升和下降的区别在哪里? 是否注释错了?

如果可以,我觉得应该分别讲讲上升法和下降法的公式,这样也好理解下面这个代码是上升还是下降

weights = weights + alpha * dataMatrix.transpose() * error

"/src/py3.x/ml/4.NaiveBayes/bayes.py" #line164 疑问

引自该文件164行:" # 可以理解为 1.单词在词汇表中的条件下,文件是good 类别的概率 也可以理解为 2.在整个空间下,文件既在词汇表中又是good类别的概率"

您好,我对这里的p1Vec意义有疑问,我认为应该是在文件是good类别的前提下,对应位置(index)的单词出现在文档中的概率.

In def file2matrix()

When I run "datingDataMat, datingLabels = KNN.file2matrix('datingTestSet2.txt')"
It shows
ValueError: could not convert string to float:
It makes me confused ,thanks for your answer.

第10章 K-均值聚类算法中的一个BUG

在第10章开头的loadDataSet()函数中,使用了map函数来处理数据,该map函数在python2会直接返回一个list,但是在python3中只返回该列表的地址,想要得到该list,需要用list(map())来强制转换。

贝叶斯问题

demo里的训练集的数据都是相同的长度。请问如果训练集的数据是混乱的,长短不一。这样去训练数据,感觉矩阵处理会比较麻烦。所以请问,训练集的数据长度相同,格式一致,这是必须要遵守的基本要求吗?还是说,是为了出于demo显示的考虑,demo处理数据方便,所以将真实数据“理想化”处理了?谢谢

Adaboost多类别分类问题

你好!感谢你的代码,请问Adaboost 用作多类别分类时该怎么实现?比如我这边有20个类别。

Logistic回归代码,读取训练及测试数据时错误“could not convert string to float:”

在运行colic_test()函数以及multi_test()函数是会报错“could not convert string to float:”

找了下原因,代码段:

for line in f_train.readlines():
    curr_line = line.strip().split('\t')   #这里在读取到最后一行的时候,输出了下为[""]
    line_arr = [float(curr_line[i]) for i in range(21)]
    training_set.append(line_arr)
    training_labels.append(float(curr_line[21]))

以及:

for line in f_test.readlines():
        num_test_vec += 1
        curr_line = line.strip().split('\t')   #这里在读取到最后一行的时候,输出了下为[""]
        #if len(curr_line) == 1: continue
        line_arr = [float(curr_line[i]) for i in range(21)]

建议加一句判断读取的curr_line是否为[""],如果是则跳出本次循环。

for line in f_train.readlines():
    curr_line = line.strip().split('\t')
    if len(curr_line) == 1: continue    #这里如果就一个空的元素,则跳过本次循环
    line_arr = [float(curr_line[i]) for i in range(21)]
    training_set.append(line_arr)
    training_labels.append(float(curr_line[21]))

亲测好用。

关于apriori算法的rulesFromConseq函数的问题

对于这个函数

def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.6):
    #参数:一个是频繁项集,另一个是可以出现在规则右部的元素列表 H
    m = len(H[0])
    if (len(freqSet) > (m + 1)): #频繁项集元素数目大于单个集合的元素数
        Hmp1 = aprioriGen(H, m+1)#存在不同顺序、元素相同的集合,合并具有相同部分的集合
        Hmp1 = calcConf(freqSet, Hmp1, supportData, brl, minConf)#计算可信度
        if (len(Hmp1) > 1):    #满足最小可信度要求的规则列表多于1,则递归
            rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf)

我认为忽略了3-项集及大于3-项集的类似{}-->{1}的关联规则,即关联规则右部只有一个元素的规则.
应该改为这样:

    #参数:一个是频繁项集,另一个是可以出现在规则右部的元素列表 H
    m = len(H[0])
    **if m == 1:
        calcConf(freqSet, H, supportData, brl, minConf)**
    if (len(freqSet) > (m + 1)): #频繁项集元素数目大于单个集合的元素数
        Hmp1 = aprioriGen(H, m+1)#存在不同顺序、元素相同的集合,合并具有相同部分的集合
        Hmp1 = calcConf(freqSet, Hmp1, supportData, brl, minConf)#计算可信度
        if (len(Hmp1) > 1):    #满足最小可信度要求的规则列表多于1,则递归
            rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf)```

请看一下我的判断对不对?

k-means工作流程 翻译错字

第十章中K-Means 工作流程
原文

首先, 随机确定 K 个初始点作为质心(不是数据中的点).
然后将数据集中的每个点分配到一个簇中, 具体来讲, 就是为每个点找到距其最近的质心, 并将其分配该质心所对应的簇. 这一步完成之后, 每个簇的质心更新为该簇说有点的平均值.

应该更改为

首先, 随机确定 K 个初始点作为质心(不是数据中的点).
然后将数据集中的每个点分配到一个簇中, 具体来讲, 就是为每个点找到距其最近的质心, 并将其分配该质心所对应的簇. 这一步完成之后, 每个簇的质心更新为该簇所有点的平均值.

将“说有”更改为“所有”。

1 syntax error

flake8 testing of https://github.com/apachecn/AiLearning on Python 3.7.0

$ flake8 . --count --select=E901,E999,F821,F822,F823 --show-source --statistics

./src/py3.x/dl/perceptron.py:192:22: F821 undefined name 'train_and_perceptron'
    and_perceptron = train_and_perceptron()
                     ^
./src/py3.x/16.RecommenderSystems/test_基于用户.py:74:28: F821 undefined name 'u'
    for v, wuv in sorted(W[u].items, key=itemgetter(1), reverse=True)[0:K]:
                           ^
./src/py3.x/16.RecommenderSystems/test_基于用户.py:74:73: F821 undefined name 'K'
    for v, wuv in sorted(W[u].items, key=itemgetter(1), reverse=True)[0:K]:
                                                                        ^
./src/py3.x/16.RecommenderSystems/test_lfm.py:12:16: F821 undefined name 'items_pool'
        item = items_pool[random.randint(0, len(items_pool) - 1)]
               ^
./src/py3.x/16.RecommenderSystems/test_lfm.py:12:49: F821 undefined name 'items_pool'
        item = items_pool[random.randint(0, len(items_pool) - 1)]
                                                ^
./src/py3.x/16.RecommenderSystems/test_lfm.py:23:14: F821 undefined name 'InitModel'
    [P, Q] = InitModel(user_items, F)
             ^
./src/py3.x/16.RecommenderSystems/test_lfm.py:26:23: F821 undefined name 'RandSelectNegativeSamples'
            samples = RandSelectNegativeSamples(items)
                      ^
./src/py3.x/16.RecommenderSystems/test_lfm.py:28:29: F821 undefined name 'Predict'
                eui = rui - Predict(user, item)
                            ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:10:18: F821 undefined name 'users'
        for i in users:
                 ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:12:22: F821 undefined name 'users'
            for j in users:
                     ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:21:18: F821 undefined name 'v'
            W[u][v] = cij / math.sqrt(N[i] * N[j])
                 ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:30:18: F821 undefined name 'users'
        for i in users:
                 ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:32:22: F821 undefined name 'users'
            for j in users:
                     ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:41:18: F821 undefined name 'v'
            W[u][v] = cij / math.sqrt(N[i] * N[j])
                 ^
./src/py3.x/16.RecommenderSystems/test_evaluation_model.py:22:16: F821 undefined name 'GetRecommendation'
        rank = GetRecommendation(user, N)
               ^
./src/py3.x/16.RecommenderSystems/test_evaluation_model.py:36:16: F821 undefined name 'GetRecommendation'
        rank = GetRecommendation(user, N)
               ^
./src/py3.x/16.RecommenderSystems/test_evaluation_model.py:51:16: F821 undefined name 'GetRecommendation'
        rank = GetRecommendation(user, N)
               ^
./src/py3.x/16.RecommenderSystems/test_evaluation_model.py:68:16: F821 undefined name 'GetRecommendation'
        rank = GetRecommendation(user, N)
               ^
./src/py3.x/nlp/6.LDA/demo.py:13:14: F821 undefined name 'corpora'
dictionary = corpora.Dictionary(train)
             ^
./src/py2.x/dl/perceptron.py:62:68: E999 SyntaxError: invalid syntax
        return self.activator(reduce(lambda a, b: a + b,map(lambda (x, w): x * w, zip(input_vec, self.weights)), 0.0) + self.bias)
                                                                   ^
1     E999 SyntaxError: invalid syntax
19    F821 undefined name 'GetRecommendation'
20

图像压缩

在使用SVD对图像压缩的时候,为什么最后32*32显示的全是数字“0”,

第12章FP-Growth算法的一个bug(疑似)

def createTree(dataSet, minSup=1):


...


            orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)]


...

这里单以localD的值作为key进行排序,当两个项计数值一样时,会产生不确定的结果,比如('c',3) == ('d',3)
但是不知道为什么在python2没跑出错
移植python3后会产生随机结果
fix:

orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: (p[1],p[0]), reverse=True)]

小疑问

py 3.x是趋势,为什么默认展示的md文本是2.x?能否更新为3.x呢?

代码都编译不过啊。。。

在 MachineLearning/src/py3.x/5.Logistic/logistic.py 里:

# random.uniform(x, y) 方法将随机生成下一个实数,它在[x,y]范围内,x是这个范围内的最小值,y是这个范围内的最大值。
            rand_index = int(np.random.uniform(0, len(data_index)))
            h = sigmoid(np.sum(data_mat[dataIndex[randIndex]] * weights))
            error = class_labels[dataIndex[randIndex]] - h
            weights = weights + alpha * error * data_mat[dataIndex[randIndex]]
            del(data_index[rand_index])

这一段 dataIndex 和 randIndex 名字写错了。

视频制作细节

在制作讲解视频时,对于屏幕,可否仅仅使用键盘来滚动屏幕,避免使用鼠标滚轮?
因为这样对于讲解者可能下意识的滚动屏幕,但是对于观看者来说,屏幕晃动的厉害,只能看个大概的图,而屏幕上的文字就别想认真看清楚了。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.