帖子

《机器学习入门》学习笔记分享园地 | 讯飞AI大学

  [复制链接]
182****8741 发表于 2020-7-13 23:50:00
21#
#day01-学习笔记-07.13
机器学习介绍
交叉验证
K折交叉验证和留一法,交叉验证在划分子集时要尽可能保持数据分布的一致性,通过分层采样得到,最常用为10折交叉验证。留一法不受随机样本划分的影响,往往被认为比较准确。缺陷在于当数据集特别大时,计算模型的消耗比较大。
混淆矩阵
TP、TN、FP、FN
敏感性与特异性
TPR、TNR计算公式
偏差与方差
偏差用来描述模型输出结果的期望与样本真实结果的差距,方差用来描述模型对于给定值的输出稳定性


使用道具 举报 回复
152****0061 发表于 2020-7-13 23:56:34
22#
#Day1 + 学习笔记 +07/13
笔记.jpg

使用道具 举报 回复
187****9656 发表于 2020-7-14 19:24:09 来自手机
23#
Day1: 拟合训练数据可得到黑色直线和绿色不规则曲线; 对于训练数据黑色要比黑色拟合效果好; 我们必须决定哪种机器学习方法最好,可以使用逻辑回归、k近邻算法、支持向量机(SVM)、随机森林等方法。   交叉验证法:估计方法的参数,即使用逻辑回归,必须用一些数据估计曲线形状 训练算法:参数估计评估方法的工作效果,即检测是否能良好的对新数据进行分类 算法测试:对方法的评估 前75%数据用于训练,后25%用于测试 四折交叉验证:将数据分为四份 留一交叉验证:每个样品单独测试 调优参数:估算不出来,只能某种程度猜测   混淆矩阵: 数据划分训练集和测试集,适用于交叉验证法;每种方法效果,为每种方法创建一个混淆矩阵;每一行对应预测的内容,每一列对应已知的事实;对角线是算法正确识别样本的次数,不在对角线是算法错误识别样本的次数;其规模取决于选取的维度。   敏感性及特异性: 行对应的是预测的变量,列对应已知的事实。 n=2 敏感性:算法正确(左上)识别有的百分比 特异性:算法正确(右下)识别没有的百分比 n>2 分块矩阵,依次计算 敏感性:单个正确的百分比 特异性:除去单个的分块矩阵的正确百分比   偏差及方差:  偏差:无法捕捉真实关系 方差:不同数据集拟合得出的差异
使用道具 举报 回复
刚子 发表于 2020-7-14 20:07:52
24#
#Day 1-学习笔记-07/13
简介
1.机器学习都是关于作出预测和分类的。
2.原始数据被称为训练数据,使用测试数据来评估机器学习方法,不要被机器学习方法与训练数据的匹配程度所愚弄。
3.对训练数据拟合效果好,但预测效果不佳,这种现象称为“偏差-方差权衡”。
4.机器学习最重要的是通过测试数据来决定哪种方法最适合我们的需求。
交叉验证
1.交叉验证可以比较不同的机器学习方法,并了解他们在实际工作中的作用。
2.估计机器学习方法中的参数——参数估计称为训练算法。
3.评估机器学习方法的工作效果——测试算法。
4.将测试数据分成4份(四折交叉验证),其中三份用于训练算法,剩下的一份用于测试算法。
5.留一交叉验证——只留一份用于测试,其他用于训练。
6.十折交叉验证——可以用来帮助找到调优参数的最佳值
混淆矩阵
1.混淆矩阵的每一行对应于机器学习方法预测的内容,每一列对应于已知的事实。
2.真阳性(TP):事实为真,预测也为真;真阴性(TN):事实为假,预测也为假;假阴性(FN):事实为真,预测却为假;假阳性(FP):事实为假,预测却为真。
3.混淆矩阵的规模取决于我们想要预测的结果的维度。
4.通过混淆矩阵可以知道机器学习方法哪里做对了,哪里做错了。
敏感性和特异性
1.敏感性(正向识别率):正确识别出为真的百分比=TP/(TP+FN);
2.特异性(反向识别率):正确识别出为假的百分比=TN/(TN+FP);
3.通过比较不同机器学习方法的敏感性和特异性,可以帮助我们选择最适合数据的机器学习方法,如果正确识别阳性对数据最重要,应该选择敏感性更高的方法。如果正确识别阴性对数据最重要,应该选择特异性更高的方法。
偏差和方差
1.方差:不同数据集经拟合得出的差异。
2.在机器学习中,理想算法偏差小,可以精确的模拟真实关系,且不同数据集之间的预测结果一致,可变性较低。
3.在简单模型和复杂模型之间找到最佳点,通常有三种方法:归一化(regularization),提升(boosting),装袋(bagging)。





使用道具 举报 回复
183****3390 发表于 2020-7-14 21:41:17
25#
# Day 2+学习笔记+07/14

3. 机器学习基础-混淆矩阵
- 混淆矩阵可用于验证不同算法的效果
- 在混淆矩阵中,每一行对应于机器学习算法预测的内容(比如预测有或没有),每一列对应于已知的事实(预测正确次数和预测错误次数)。
  当验证多种算法效果是,比较每种算法预测正确数越多的算法效果越好。

4. 机器学习基础-敏感性及特异性
- 在混淆矩阵的基础上,敏感性指的是算法正确识别出对的事物的百分比,特异性指的是算法正确识别出
  事物是错误的事物百分比。

5. 机器学习基础-偏差及方差
- 偏差:像线性回归这样的机器学习方法无法捕捉真实关系,我们把这种情况叫作偏差。
- 方差:我们测量从拟合线到数据的距离,并对它们的平方值求和。不同数据集经拟合得出的差异称为方差。

6. ROC 和 AUC
- ROC:ROC 图代表了不同阈值产生的所有混淆矩阵。
- AUC 作用:AUC 代表 ROC 曲线下方的面积,AUC 可以轻松地将一条 ROC 曲线与另一条曲线进行比较。

使用道具 举报 回复
155****1852 发表于 2020-7-14 21:49:54 来自手机
26#
# Day 2+学习笔记+07/14                ROC经常被用来评价一个二值分类器的优劣。AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。   AUC值是一个概率值,当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。
使用道具 举报 回复
187****9656 发表于 2020-7-14 22:30:24 来自手机
27#
Day2 ROC and AUC: ROC和AUC常被用来评价一个二值分类器 ROC曲线的纵轴为“真正例率”(TPR),横轴为“假正例率””(FPR) 计算公式:TPR/(TP+FN) 计算公式:FPR/(TP+FP) FPR=1-specificity AUC为ROC曲线下的面积 随机森林:一种样本方法,可以对决策阈值进行调整 AUC可以轻松地将一条ROC曲线与另一条曲线进行比较,红色ROC曲线的AUC大于蓝色ROC曲线的AUC,表明红色曲线效果更好。 精确度等于真阳性除以真阳性和假阳性的总和 精确度是描述正确分类的阳性结果比例   R语言中的ROC和AUC 加载pROC,这个库将为我们绘制ROC图 ROC曲线是过(0,0)和(1,1)两点的。考虑两种极端情况:当将阀值放松,把所有观测分类为negative时,在(0,0);当将阀值收紧,将观测全部分类为positive时,为(1,1)。随机模型的ROC曲线是穿过(0,0)和(1,1)的45度线。 左上角的(0,1)点表示判断全部正确,所以理想模型应该与这一点越接近越好。这个接近程度可以用ROC曲线下面积AUC(Area Under Curve)来表示。随机模型的AUC为右下三角0.5,全部分类正确模型的AUC为1。所以模型越接近左上角,AUC会越接近1,反之会越接近0.5。 默认情况下,ROC函数会在x轴上绘制特异性,而不是1-特异性
使用道具 举报 回复
188****6584 发表于 2020-7-14 22:52:31
28#
Day2:
5. 偏差:(线性回归不可以拟合曲线),与训练集数据的拟合程度
  方差:对未来新数据集(测试集)有较稳定的表现
6. 过拟合:高方差;欠拟合:高偏差
->折中办法
7. 降低阈值->更严格的筛查标准->提高假阳性
8. ROC
离y=x越远,说明阈值设计的越好
9. AUC: 折线下面积,用于比较不同模型

使用道具 举报 回复
泛海 发表于 2020-7-14 22:53:28
29#
# Day 2+学习笔记+07/14
在分类问题中,有ROC和AUC概念
                  实际P                     实际N
预测  P      True Positive         False Positive
预测  N      False Negative     True Negative

Sensitivity =  TP/(TP+FN)
FNR = 1 - Specificity = FP/(FP+TN)

ROC曲线就是 Sensitivity和FNR在不同阈值下绘制形成的
AUC是ROC下面的面积



使用道具 举报 回复
开放平台用户-m78kwc 发表于 2020-7-14 22:53:47
30#
# Day 2+学习笔记+07/14

3. 混淆矩阵
- 混淆矩阵可用于比较不同机器学习算法的效果,进而选出最佳
- 在混淆矩阵中,行对应预测,列对应事实。对角线的TP、TN数值是正确分类的,而FP、FN是错误分类  混淆矩阵的维数由需要分类的个数决定。

4. 敏感性及特异性
-计算混淆矩阵的技术指标
敏感性=真阳/真阳+假阴,正确识别阳性数据更重要时采用
特异性=真阴/真阴+假阳,正确识别阴性数据更重要时采用






使用道具 举报 回复