apachecn / ailearning Goto Github PK

View Code? Open in Web Editor NEW

38.4K 1.7K 11.3K 167.36 MB

AiLearning：数据分析+机器学习实战+线性代数+PyTorch+NLTK+TF2

Home Page: http://ailearning.apachecn.org/

License: Other

Python 93.01% Jupyter Notebook 1.81% Shell 0.05% HTML 0.40% CSS 2.29% Dockerfile 0.01% JavaScript 2.43%

fp-growth apriori mahchine-leaning naivebayes svm adaboost kmeans svd pca logistic

ailearning's Introduction

AI learning

协议：CC BY-NC-SA 4.0

一种新技术一旦开始流行，你要么坐上压路机，要么成为铺路石。——Stewart Brand

路线图

入门只看: 步骤 1 => 2 => 3，你可以当大牛！
中级补充 - 资料库: https://github.com/apachecn/ai-roadmap

补充

算法刷题: https://www.ixigua.com/pseries/6822642486343631363/
面试求职: https://www.ixigua.com/pseries/6822563009391493636/
机器学习实战: https://www.ixigua.com/pseries/6822816341615968772/
NLP教学视频: https://www.ixigua.com/pseries/6828241431295951373/
AI常用函数说明: https://github.com/apachecn/AiLearning/tree/master/AI常用函数说明.md

1.机器学习 - 基础

支持版本

Version	Supported
3.6.x	❌
2.7.x	✅

注意事项:

机器学习实战: 仅仅只是学习，请使用 python 2.7.x 版本（3.6.x 只是修改了部分）

基本介绍

资料来源: Machine Learning in Action(机器学习实战-个人笔记)
统一数据地址: https://github.com/apachecn/data
- 百度云打包地址: apachecn/data#3
书籍下载地址: https://github.com/apachecn/data/tree/master/book
机器学习下载地址: https://github.com/apachecn/data/tree/master/机器学习
深度学习数据地址: https://github.com/apachecn/data/tree/master/深度学习
推荐系统数据地址: https://github.com/apachecn/data/tree/master/推荐系统
视频网站: 优酷／bilibili / Acfun / 网易云课堂，可直接在线播放。（最下方有相应链接）
-- 推荐红色石头: **大学林轩田机器学习笔记
-- 推荐机器学习笔记: https://feisky.xyz/machine-learning

学习文档

模块	章节	类型	负责人(GitHub)	QQ
机器学习实战	第 1 章: 机器学习基础	介绍	@毛红动	1306014226
机器学习实战	第 2 章: KNN 近邻算法	分类	@尤永江	279393323
机器学习实战	第 3 章: 决策树	分类	@景涛	844300439
机器学习实战	第 4 章: 朴素贝叶斯	分类	@wnma3mz @分析	1003324213 244970749
机器学习实战	第 5 章: Logistic回归	分类	@微光同尘	529925688
机器学习实战	第 6 章: SVM 支持向量机	分类	@王德红	934969547
网上组合内容	第 7 章: 集成方法（随机森林和 AdaBoost）	分类	@片刻	529815144
机器学习实战	第 8 章: 回归	回归	@微光同尘	529925688
机器学习实战	第 9 章: 树回归	回归	@微光同尘	529925688
机器学习实战	第 10 章: K-Means 聚类	聚类	@徐昭清	827106588
机器学习实战	第 11 章: 利用 Apriori 算法进行关联分析	频繁项集	@刘海飞	1049498972
机器学习实战	第 12 章: FP-growth 高效发现频繁项集	频繁项集	@程威	842725815
机器学习实战	第 13 章: 利用 PCA 来简化数据	工具	@廖立娟	835670618
机器学习实战	第 14 章: 利用 SVD 来简化数据	工具	@张俊皓	714974242
机器学习实战	第 15 章: 大数据与 MapReduce	工具	@wnma3mz	1003324213
Ml项目实战	第 16 章: 推荐系统（已迁移）	项目	推荐系统（迁移后地址）
第一期的总结	2017-04-08: 第一期的总结	总结	总结	529815144

网站视频

知乎问答-爆炸啦-机器学习该怎么入门？

当然我知道，第一句就会被吐槽，因为科班出身的人，不屑的吐了一口唾沫，说傻X，还评论 Andrew Ng 的视频。。

我还知道还有一部分人，看 Andrew Ng 的视频就是看不懂，那神秘的数学推导，那迷之微笑的英文版的教学，我何尝又不是这样走过来的？？我的心可能比你们都痛，因为我在网上收藏过上10部《机器学习》相关视频，外加国内本土风格的教程: 7月+小象等等，我都很难去听懂，直到有一天，被一个百度的高级算法分析师推荐说: 《机器学习实战》还不错，通俗易懂，你去试试？？

我试了试，还好我的Python基础和调试能力还不错，基本上代码都调试过一遍，很多高大上的 "理论+推导"，在我眼中变成了几个 "加减乘除+循环"，我想这不就是像我这样的程序员想要的入门教程么？

很多程序员说机器学习 TM 太难学了，是的，真 TM 难学，我想最难的是: 没有一本像《机器学习实战》那样的作者愿意以程序员 Coding 角度去给大家讲解！！

最近几天，GitHub 涨了 300颗 star，加群的200人，现在还在不断的增加++，我想大家可能都是感同身受吧！

很多想入门新手就是被忽悠着收藏收藏再收藏，但是最后还是什么都没有学到，也就是"资源收藏家"，也许新手要的就是 MachineLearning(机器学习) 学习路线图。没错，我可以给你们的一份，因为我们还通过视频记录下来我们的学习过程。水平当然也有限，不过对于新手入门，绝对没问题，如果你还不会，那算我输！！

视频怎么看？

理论科班出身-建议去学习 Andrew Ng 的视频（Ng 的视频绝对是权威，这个毋庸置疑）
编码能力强 - 建议看我们的《机器学习实战-教学版》
编码能力弱 - 建议看我们的《机器学习实战-讨论版》，不过在看理论的时候，看教学版-理论部分；讨论版的废话太多，不过在讲解代码的时候是一行一行讲解的；所以，根据自己的需求，自由的组合。

【免费】数学教学视频 - 可汗学院入门篇

@于振梓推荐: 可汗学院-网易公开课

概率	统计	线性代数
可汗学院(概率)	可汗学院(统计学)	可汗学院(线性代数)

机器学习视频 - ApacheCN 教学版


AcFun	B站

优酷	网易云课堂

【免费】机器/深度学习视频 - 吴恩达

机器学习	深度学习
吴恩达机器学习	神经网络和深度学习

2.深度学习

支持版本

Version	Supported
3.6.x	✅
2.7.x	❌

入门基础

Pytorch - 教程

-- 待更新

TensorFlow 2.0 - 教程

-- 待更新

目录结构:

切分（分词）

词性标注

命名实体识别

句法分析

WordNet可以被看作是一个同义词词典

词干提取（stemming）与词形还原（lemmatization）

https://www.biaodianfu.com/nltk.html/amp

TensorFlow 2.0学习网址

https://github.com/lyhue1991/eat_tensorflow2_in_30_days

3.自然语言处理

支持版本

Version	Supported
3.6.x	✅
2.7.x	❌

学习过程中-内心复杂的变化！！！

自从学习NLP以后，才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:
  1) 国内: 就好像为了名气，举办工作装逼的会议，就是没有干货，全部都是象征性的PPT介绍，不是针对在做的各位
  2）国外: 就好像是为了推动nlp进步一样，分享者各种干货资料和具体的实现。（特别是: python自然语言处理）
2. 论文的实现: 
  1) 各种高大上的论文实现，却还是没看到一个像样的GitHub项目！（可能我的搜索能力差了点，一直没找到）
  2）国外就不举例了，我看不懂！
3. 开源的框架
  1）国外的开源框架:  tensorflow/pytorch 文档+教程+视频（官方提供）
  2) 国内的开源框架: 额额，还真举例不出来！但是牛逼吹得不比国外差！（MXNet虽然有众多国人参与开发，但不能算是国内开源框架。基于MXNet的动手学深度学习(http://zh.d2l.ai & https://discuss.gluon.ai/t/topic/753)中文教程,已经由沐神(李沐)以及阿斯顿·张讲授录制，公开发布(文档+第一季教程+视频）。)
每一次深入都要去翻墙，每一次深入都要Google，每一次看着国内的说: 哈工大、讯飞、中科大、百度、阿里多牛逼，但是资料还是得国外去找！
有时候真的挺恨的！真的有点瞧不起自己国内的技术环境！

当然谢谢国内很多博客大佬，特别是一些入门的Demo和基本概念。【深入的水平有限，没看懂】

【入门须知】必须了解: https://github.com/apachecn/AiLearning/tree/master/nlp
【入门教程】强烈推荐: PyTorch 自然语言处理: https://github.com/apachecn/NLP-with-PyTorch
Python 自然语言处理第二版: https://usyiyi.github.io/nlp-py-2e-zh
推荐一个liuhuanyong大佬整理的nlp全面知识体系: https://liuhuanyong.github.io
开源 - 词向量库集合:

1.使用场景（百度公开课）

第一部分入门介绍

1.) 自然语言处理入门介绍

第二部分机器翻译

2.) 机器翻译

第三部分篇章分析

第四部分 UNIT-语言理解与交互技术

4.) UNIT-语言理解与交互技术

应用领域

中文分词:

构建DAG图
动态规划查找，综合正反向（正向加权反向输出）求得DAG最大概率路径
使用了SBME语料训练了一套 HMM + Viterbi 模型，解决未登录词问题

1.文本分类（Text Classification）

文本分类是指标记句子或文档，例如电子邮件垃圾邮件分类和情感分析。

下面是一些很好的初学者文本分类数据集。

路透社Newswire主题分类（路透社-21578）。1987年路透社出现的一系列新闻文件，按类别编制索引。另见RCV1，RCV2和TRC2。
IMDB电影评论情感分类（斯坦福）。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
新闻组电影评论情感分类（康奈尔）。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

有关更多信息，请参阅帖子: 单标签文本分类的数据集。

情感分析

比赛地址: https://www.kaggle.com/c/word2vec-nlp-tutorial

方案一(0.86): WordCount + 朴素 Bayes
方案二(0.94): LDA + 分类模型（knn/决策树/逻辑回归/svm/xgboost/随机森林）
- a) 决策树效果不是很好，这种连续特征不太适合的
- b) 通过参数调整 200 个topic，信息量保存效果较优（计算主题）
方案三(0.72): word2vec + CNN
- 说实话: 没有一个好的机器，是调不出来一个好的结果 (: 逃

通过AUC 来评估模型的效果

2.语言模型（Language Modeling）

语言建模涉及开发一种统计模型，用于预测句子中的下一个单词或一个单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。

它是语音识别和机器翻译等任务中的前置任务。

下面是一些很好的初学者语言建模数据集。

古腾堡项目，一系列免费书籍，可以用纯文本检索各种语言。
还有更多正式的语料库得到了很好的研究; 例如: 布朗大学现代美国英语标准语料库。大量英语单词样本。谷歌10亿字语料库。

新词发现

中文分词新词发现
python3利用互信息和左右信息熵的中文分词新词发现
https://github.com/zhanzecheng/Chinese_segment_augment

句子相似度识别

项目地址: https://www.kaggle.com/c/quora-question-pairs
解决方案: word2vec + Bi-GRU

文本纠错

bi-gram + levenshtein

3.图像字幕（Image Captioning）

mage字幕是为给定图像生成文本描述的任务。

下面是一些很好的初学者图像字幕数据集。

上下文中的公共对象（COCO）。包含超过12万张带描述的图像的集合
Flickr 8K。从flickr.com获取的8千个描述图像的集合。
Flickr 30K。从flickr.com获取的3万个描述图像的集合。欲了解更多，请看帖子:

探索图像字幕数据集，2016年

4.机器翻译（Machine Translation）

机器翻译是将文本从一种语言翻译成另一种语言的任务。

下面是一些很好的初学者机器翻译数据集。

加拿大第36届议会的协调国会议员。成对的英语和法语句子。
欧洲议会诉讼平行语料库1996-2011。句子对一套欧洲语言。有大量标准数据集用于年度机器翻译挑战; 看到:

统计机器翻译

机器翻译

Encoder + Decoder(Attention)
参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html

5.问答系统（Question Answering）

问答是一项任务，其中提供了一个句子或文本样本，从中提出问题并且必须回答问题。

下面是一些很好的初学者问题回答数据集。

斯坦福问题回答数据集（SQuAD）。回答有关维基百科文章的问题。
Deepmind问题回答语料库。从每日邮报回答有关新闻文章的问题。
亚马逊问答数据。回答有关亚马逊产品的问题。有关更多信息，请参阅帖子:

数据集: 我如何获得问答网站的语料库，如Quora或Yahoo Answers或Stack Overflow来分析答案质量？

6.语音识别（Speech Recognition）

语音识别是将口语的音频转换为人类可读文本的任务。

下面是一些很好的初学者语音识别数据集。

TIMIT声学 - 语音连续语音语料库。不是免费的，但因其广泛使用而上市。口语美国英语和相关的转录。
VoxForge。用于构建用于语音识别的开源数据库的项目。
LibriSpeech ASR语料库。从LibriVox收集的大量英语有声读物。

7.自动文摘（Document Summarization）

文档摘要是创建较大文档的简短有意义描述的任务。

下面是一些很好的初学者文档摘要数据集。

法律案例报告数据集。收集了4000份法律案件及其摘要。
TIPSTER文本摘要评估会议语料库。收集了近200份文件及其摘要。
英语新闻文本的AQUAINT语料库。不是免费的，而是广泛使用的。新闻文章的语料库。欲了解更多信息:

文档理解会议（DUC）任务。在哪里可以找到用于文本摘要的良好数据集？

命名实体识别

Bi-LSTM CRF
参考案例: http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html
CRF推荐文档: https://www.jianshu.com/p/55755fc649b1

文本摘要

抽取式
word2vec + textrank
word2vec推荐文档: https://www.zhihu.com/question/44832436/answer/266068967
textrank推荐文档: https://blog.csdn.net/BaiHuaXiu123/article/details/77847232

Graph图计算【慢慢更新】

数据集: https://github.com/apachecn/data/tree/master/graph
学习资料: spark graphX实战.pdf 【文件太大不方便提供，自己百度】

知识图谱

知识图谱，我只认 SimmerChan: 【知识图谱-给AI装个大脑】
说实话，我是看这博主老哥写的博客长大的，写的真的是深入浅出。我很喜欢，所以就分享给大家，希望你们也喜欢。

进一步阅读

如果您希望更深入，本节提供了其他数据集列表。

参考

致谢

最近无意收到群友推送的链接，发现得到大佬高度的认可，并在热心的推广。在此感谢:

赞助我们

ailearning's People

Contributors

Stargazers

Watchers

Forkers

geekidentity eps3 sevnoilem microcountry xinzizi hello19883 xuejianjun sehriff xingwujie wangmb yishengxiaoyao acheron2012 dax1n leemoonch paulrsing shijiansu wyl-hit git2191866109 bupianlizhugui zivzone boyljs zixuanguo jerrytom121 greatmichael001 xiulonghan sunt99 yuanyuanzwj nanfengpo orgatai pengjintao coolbit88 ellenzyq wenxuejiang610 rangermbh pingwen-cs whitespur liumaoyang windyqinchaofeng ajoeajoe jinjiang2009 ww954950195 jerriychen elffer yuanjie-ai rayboom 601madman xianfengju aaronwong mrchenghua juzenn allenwang616 mengj6 doubaobelan fengyin123 katrinali0117 mutual-ai wuqh1990 huangtianan mrliuzhengming vencentml huangzijian888 wanesta litaotao giraffelin ecore2018 cableyang basto11 zgsxwsdxg zhoujiangmei 012huang hanst fengchangfight qiyunfei martians nightmoonshen yanmc lovemegowin loverollcat pygmalion666 paojianghu pippo1981 wgsgyes solertis redisck lz666win wqzhanghub losermax liangzhengjiao servant007 mr-susu bethxu yqian1014 tingzhendu teng2015 rie-long ssrlxl jhuang111 zhangyingwei-resources qinxiangke shuyabin

ailearning's Issues

第11章_Apriori算法 - ApacheCN

https://ailearning.apachecn.org/#/docs/ml/11.使用Apriori算法进行关联分析

ApacheCN 专注于优秀项目维护的开源组织

您好，关于推荐系统这一部分，基于item和基于user，程序是怎么运行的呢？哪几个文件属于一起的呀？当我直接运行RS-itemcf.py的时候，报错如下：
C:\software\Anaconda3\python.exe D:/python/MachineLearning-dev/src/py3.x/16.RecommenderSystems/RS-itemcf.py
File "D:/python/MachineLearning-dev/src/py3.x/16.RecommenderSystems/RS-itemcf.py", line 3
Created on 2015-06-22
^
SyntaxError: invalid syntax

Process finished with exit code 1
不知应当如何解决呢，请大神帮忙解答一下，感激不尽！！！

db数据集的目录问题

项目代码&db都在项目根目录下面，代码运行的时候无法读取到对应的文件

测试

逻辑回归示例代码中有一处问题

上升or下降?

在 https://github.com/apachecn/MachineLearning/blob/master/src/py2.x/ML/5.Logistic/logistic.py 里有2个方法：

正常的梯度上升法
https://github.com/apachecn/MachineLearning/blob/f727eda8150e26cea0425b0bb17b0badb67d5b01/src/py2.x/ML/5.Logistic/logistic.py#L54

随机梯度下降
https://github.com/apachecn/MachineLearning/blob/f727eda8150e26cea0425b0bb17b0badb67d5b01/src/py2.x/ML/5.Logistic/logistic.py#L100

这2个函数的主要区别只有前者使用全量数据更新w，后者使用一个样本更新w
那么在这里，上升和下降的区别在哪里？是否注释错了？

如果可以，我觉得应该分别讲讲上升法和下降法的公式，这样也好理解下面这个代码是上升还是下降

weights = weights + alpha * dataMatrix.transpose() * error

"/src/py3.x/ml/4.NaiveBayes/bayes.py" #line164 疑问

引自该文件164行：" # 可以理解为 1.单词在词汇表中的条件下，文件是good 类别的概率也可以理解为 2.在整个空间下，文件既在词汇表中又是good类别的概率"

您好，我对这里的p1Vec意义有疑问，我认为应该是在文件是good类别的前提下，对应位置(index)的单词出现在文档中的概率.

ApacheCN

http://ailearning.apachecn.org/

ApacheCN 专注于优秀项目维护的开源组织

电子书http://pan.baidu.com/s/1bpzVb2J 连接挂掉了

可以的话直接把书丢上github吧 😆

py3 pca.py有错

https://github.com/apachecn/MachineLearning/blob/dev/src/py3.x/ML/13.PCA/pca.py
第18行
datArr = [list(map(float, line) for line in stringArr)]
应该改为
datArr = [list(map(float, line)) for line in stringArr]

In def file2matrix()

When I run "datingDataMat, datingLabels = KNN.file2matrix('datingTestSet2.txt')"
It shows
ValueError: could not convert string to float:
It makes me confused ,thanks for your answer.

斗胆指一下注释中的一个小错误

https://github.com/apachecn/MachineLearning/blob/python-3.6/src/python/3.DecisionTree/DecisionTree.py
141行的注释 # retDataSet = [data for data in dataSet for i, v in enumerate(data) if i == axis and v == value] 这里的 i == axis是不是应该改为i == index?

accident

第10章 K-均值聚类算法中的一个BUG

在第10章开头的loadDataSet()函数中，使用了map函数来处理数据，该map函数在python2会直接返回一个list，但是在python3中只返回该列表的地址，想要得到该list，需要用list(map())来强制转换。

为何录制教学版视频 - ApacheCN

http://ailearning.apachecn.org/why-to-record-study-ml-video/

ApacheCN 专注于优秀项目维护的开源组织

第14章_SVD简化数据 - ApacheCN

http://ailearning.apachecn.org/ml/14.SVD/

ApacheCN 专注于优秀项目维护的开源组织

About coding

Must be written in python? Thank you！

代码错误

失误，看错了，不是问题：）

第2章_K近邻算法 - ApacheCN

http://ailearning.apachecn.org/ml/2.KNN/

ApacheCN 专注于优秀项目维护的开源组织

贝叶斯问题

demo里的训练集的数据都是相同的长度。请问如果训练集的数据是混乱的，长短不一。这样去训练数据，感觉矩阵处理会比较麻烦。所以请问，训练集的数据长度相同，格式一致，这是必须要遵守的基本要求吗？还是说，是为了出于demo显示的考虑，demo处理数据方便，所以将真实数据“理想化”处理了？谢谢

真相（group-true）:真正存在的潜在规律是否存在拼写错误

https://github.com/apachecn/MachineLearning/blob/master/docs/1.%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80.md中的有一行
真相（group-true）:真正存在的潜在规律

第10章_KMeans聚类 - ApacheCN

ApacheCN 专注于优秀项目维护的开源组织
https://ailearning.apachecn.org/#/docs/ml/10.k-means聚类

K 值该怎么选择?

分析方案： https://blog.csdn.net/xyisv/article/details/82430107
备份地址： https://www.ibooker.org.cn/topic/%e3%80%90%e6%af%8f%e6%97%a5%e4%b8%80%e9%97%ae%e3%80%91%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0-kmeans%e8%81%9a%e7%b1%bb%e9%80%89%e6%8b%a9%e6%9c%80%e4%bc%98k%e5%80%bcpython%e5%ae%9e%e7%8e%b0/

Adaboost多类别分类问题

你好！感谢你的代码，请问Adaboost 用作多类别分类时该怎么实现？比如我这边有20个类别。

第13章_PCA降维 - ApacheCN

http://ailearning.apachecn.org/ml/13.PCA/

ApacheCN 专注于优秀项目维护的开源组织

第5章_逻辑回归 - ApacheCN

http://ailearning.apachecn.org/ml/5.Logistic/

ApacheCN 专注于优秀项目维护的开源组织

第1章_基础知识 - ApacheCN

https://ailearning.apachecn.org/#/docs/ml/1.机器学习基础

ApacheCN 专注于优秀项目维护的开源组织

为这个仓库的内容生成了电子书

机器学习实战（ApacheCN）.pdf

第3章_决策树算法 - ApacheCN

https://ailearning.apachecn.org/#/docs/ml/3.决策树

kmeans聚类选择最优K值python实现：
https://blog.csdn.net/xyisv/article/details/82430107

使用二分kmeans时怎样获取类别标记呢？

使用示例代码中的二分kmeans时怎样获取类别标记呢？

第4章_朴素贝叶斯 - ApacheCN

http://ailearning.apachecn.org/ml/4.NaiveBayesian/

ApacheCN 专注于优秀项目维护的开源组织

Logistic回归代码，读取训练及测试数据时错误“could not convert string to float:”

在运行colic_test()函数以及multi_test()函数是会报错“could not convert string to float:”

找了下原因，代码段：

for line in f_train.readlines():
    curr_line = line.strip().split('\t')   #这里在读取到最后一行的时候，输出了下为[""]
    line_arr = [float(curr_line[i]) for i in range(21)]
    training_set.append(line_arr)
    training_labels.append(float(curr_line[21]))

以及：

for line in f_test.readlines():
        num_test_vec += 1
        curr_line = line.strip().split('\t')   #这里在读取到最后一行的时候，输出了下为[""]
        #if len(curr_line) == 1: continue
        line_arr = [float(curr_line[i]) for i in range(21)]

建议加一句判断读取的curr_line是否为[""]，如果是则跳出本次循环。

for line in f_train.readlines():
    curr_line = line.strip().split('\t')
    if len(curr_line) == 1: continue    #这里如果就一个空的元素，则跳过本次循环
    line_arr = [float(curr_line[i]) for i in range(21)]
    training_set.append(line_arr)
    training_labels.append(float(curr_line[21]))

亲测好用。

关于apriori算法的rulesFromConseq函数的问题

对于这个函数

def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.6):
    #参数:一个是频繁项集,另一个是可以出现在规则右部的元素列表 H
    m = len(H[0])
    if (len(freqSet) > (m + 1)): #频繁项集元素数目大于单个集合的元素数
        Hmp1 = aprioriGen(H, m+1)#存在不同顺序、元素相同的集合，合并具有相同部分的集合
        Hmp1 = calcConf(freqSet, Hmp1, supportData, brl, minConf)#计算可信度
        if (len(Hmp1) > 1):    #满足最小可信度要求的规则列表多于1,则递归
            rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf)

我认为忽略了3-项集及大于3-项集的类似{}-->{1}的关联规则,即关联规则右部只有一个元素的规则.
应该改为这样:

    #参数:一个是频繁项集,另一个是可以出现在规则右部的元素列表 H
    m = len(H[0])
    **if m == 1:
        calcConf(freqSet, H, supportData, brl, minConf)**
    if (len(freqSet) > (m + 1)): #频繁项集元素数目大于单个集合的元素数
        Hmp1 = aprioriGen(H, m+1)#存在不同顺序、元素相同的集合，合并具有相同部分的集合
        Hmp1 = calcConf(freqSet, Hmp1, supportData, brl, minConf)#计算可信度
        if (len(Hmp1) > 1):    #满足最小可信度要求的规则列表多于1,则递归
            rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf)```

请看一下我的判断对不对?

k-means工作流程翻译错字

第十章中K-Means 工作流程
原文

首先, 随机确定 K 个初始点作为质心（不是数据中的点）.
然后将数据集中的每个点分配到一个簇中, 具体来讲, 就是为每个点找到距其最近的质心, 并将其分配该质心所对应的簇. 这一步完成之后, 每个簇的质心更新为该簇说有点的平均值.

应该更改为

首先, 随机确定 K 个初始点作为质心（不是数据中的点）.
然后将数据集中的每个点分配到一个簇中, 具体来讲, 就是为每个点找到距其最近的质心, 并将其分配该质心所对应的簇. 这一步完成之后, 每个簇的质心更新为该簇所有点的平均值.

将“说有”更改为“所有”。

1 syntax error

flake8 testing of https://github.com/apachecn/AiLearning on Python 3.7.0

$ flake8 . --count --select=E901,E999,F821,F822,F823 --show-source --statistics

./src/py3.x/dl/perceptron.py:192:22: F821 undefined name 'train_and_perceptron'
    and_perceptron = train_and_perceptron()
                     ^
./src/py3.x/16.RecommenderSystems/test_基于用户.py:74:28: F821 undefined name 'u'
    for v, wuv in sorted(W[u].items, key=itemgetter(1), reverse=True)[0:K]:
                           ^
./src/py3.x/16.RecommenderSystems/test_基于用户.py:74:73: F821 undefined name 'K'
    for v, wuv in sorted(W[u].items, key=itemgetter(1), reverse=True)[0:K]:
                                                                        ^
./src/py3.x/16.RecommenderSystems/test_lfm.py:12:16: F821 undefined name 'items_pool'
        item = items_pool[random.randint(0, len(items_pool) - 1)]
               ^
./src/py3.x/16.RecommenderSystems/test_lfm.py:12:49: F821 undefined name 'items_pool'
        item = items_pool[random.randint(0, len(items_pool) - 1)]
                                                ^
./src/py3.x/16.RecommenderSystems/test_lfm.py:23:14: F821 undefined name 'InitModel'
    [P, Q] = InitModel(user_items, F)
             ^
./src/py3.x/16.RecommenderSystems/test_lfm.py:26:23: F821 undefined name 'RandSelectNegativeSamples'
            samples = RandSelectNegativeSamples(items)
                      ^
./src/py3.x/16.RecommenderSystems/test_lfm.py:28:29: F821 undefined name 'Predict'
                eui = rui - Predict(user, item)
                            ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:10:18: F821 undefined name 'users'
        for i in users:
                 ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:12:22: F821 undefined name 'users'
            for j in users:
                     ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:21:18: F821 undefined name 'v'
            W[u][v] = cij / math.sqrt(N[i] * N[j])
                 ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:30:18: F821 undefined name 'users'
        for i in users:
                 ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:32:22: F821 undefined name 'users'
            for j in users:
                     ^
./src/py3.x/16.RecommenderSystems/test_基于物品.py:41:18: F821 undefined name 'v'
            W[u][v] = cij / math.sqrt(N[i] * N[j])
                 ^
./src/py3.x/16.RecommenderSystems/test_evaluation_model.py:22:16: F821 undefined name 'GetRecommendation'
        rank = GetRecommendation(user, N)
               ^
./src/py3.x/16.RecommenderSystems/test_evaluation_model.py:36:16: F821 undefined name 'GetRecommendation'
        rank = GetRecommendation(user, N)
               ^
./src/py3.x/16.RecommenderSystems/test_evaluation_model.py:51:16: F821 undefined name 'GetRecommendation'
        rank = GetRecommendation(user, N)
               ^
./src/py3.x/16.RecommenderSystems/test_evaluation_model.py:68:16: F821 undefined name 'GetRecommendation'
        rank = GetRecommendation(user, N)
               ^
./src/py3.x/nlp/6.LDA/demo.py:13:14: F821 undefined name 'corpora'
dictionary = corpora.Dictionary(train)
             ^
./src/py2.x/dl/perceptron.py:62:68: E999 SyntaxError: invalid syntax
        return self.activator(reduce(lambda a, b: a + b,map(lambda (x, w): x * w, zip(input_vec, self.weights)), 0.0) + self.bias)
                                                                   ^
1     E999 SyntaxError: invalid syntax
19    F821 undefined name 'GetRecommendation'
20

第7章_集成方法 - ApacheCN

http://ailearning.apachecn.org/ml/7.Ensemble/

ApacheCN 专注于优秀项目维护的开源组织

第4章基于概率论的分类方法：朴素贝叶斯其中一个问题

对朴素贝叶斯分类器训练函数的代码块中：
p1Denom += sum(trainMatrix[i])和p0Denom为何不是每次加一

这里加载的数据是经纬度坐标吗

第8章_回归 - ApacheCN

http://ailearning.apachecn.org/ml/8.Regression/

ApacheCN 专注于优秀项目维护的开源组织

图像压缩

在使用SVD对图像压缩的时候，为什么最后32*32显示的全是数字“0”，

第9章_树回归 - ApacheCN

http://ailearning.apachecn.org/ml/9.TreeRegression/

ApacheCN 专注于优秀项目维护的开源组织

第12章FP-Growth算法的一个bug（疑似）

def createTree(dataSet, minSup=1):


...


            orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)]


...

这里单以localD的值作为key进行排序，当两个项计数值一样时，会产生不确定的结果，比如('c',3) == ('d',3)
但是不知道为什么在python2没跑出错
移植python3后会产生随机结果
fix:

orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: (p[1],p[0]), reverse=True)]

第12章_FP-growth算法 - ApacheCN

http://ailearning.apachecn.org/ml/12.FP-growth/

ApacheCN 专注于优秀项目维护的开源组织

加入我们 - ApacheCN

http://ailearning.apachecn.org/join-us/

ApacheCN 专注于优秀项目维护的开源组织

第16章_推荐系统 - ApacheCN

http://ailearning.apachecn.org/ml/16.RecommendedSystem/

ApacheCN 专注于优秀项目维护的开源组织

小疑问

py 3.x是趋势，为什么默认展示的md文本是2.x？能否更新为3.x呢?

代码都编译不过啊。。。

在 MachineLearning/src/py3.x/5.Logistic/logistic.py 里：

# random.uniform(x, y) 方法将随机生成下一个实数，它在[x,y]范围内,x是这个范围内的最小值，y是这个范围内的最大值。
            rand_index = int(np.random.uniform(0, len(data_index)))
            h = sigmoid(np.sum(data_mat[dataIndex[randIndex]] * weights))
            error = class_labels[dataIndex[randIndex]] - h
            weights = weights + alpha * error * data_mat[dataIndex[randIndex]]
            del(data_index[rand_index])

这一段 dataIndex 和 randIndex 名字写错了。

apachecn / ailearning Goto Github PK

ailearning's Introduction

路线图

1.机器学习 - 基础

基本介绍

学习文档

网站视频

2.深度学习

入门基础

Pytorch - 教程

TensorFlow 2.0 - 教程

3.自然语言处理

1.使用场景 （百度公开课）

应用领域

中文分词:

1.文本分类（Text Classification）

2.语言模型（Language Modeling）

3.图像字幕（Image Captioning）

4.机器翻译（Machine Translation）

5.问答系统（Question Answering）

6.语音识别（Speech Recognition）

7.自动文摘（Document Summarization）

Graph图计算【慢慢更新】

知识图谱

进一步阅读

参考

致谢

赞助我们

ailearning's People

Contributors

Stargazers

Watchers

Forkers

ailearning's Issues

上升or下降?

Recommend Projects

Recommend Topics

Recommend Org

1.使用场景（百度公开课）