帖子

《机器学习入门》学习笔记分享园地 | 讯飞AI大学

  [复制链接]
181****4733 发表于 2020-7-14 22:54:38
31#
# Day 2+学习笔记+07/14偏差和方差
1、偏差(bias):又叫欠拟合(underfitting),训练的模型不能够很好的预测训练集
2、方差(variance):又叫过拟合(overfitting),训练的模型在训练集中表现很好,但是在测试集中表现不佳


ROC(Receiver Operator Characteristic):代表了所有不同阈值产生的所有混淆矩阵的曲线。横坐标一般为FPR,纵坐标TPR。
AUC(Area Under the Curve):曲线下方面积。面积越大模型越优
使用道具 举报 回复
152****6578 发表于 2020-7-14 23:17:04 来自手机
32#
# Day 2+学习笔记+07/14   机器学习基础--偏差及方差 Bias and Variance 方差是测试数据下模型预测值的方差 偏差是测试数据下预测值相对真实值的偏差   ROC和AUC对同一算法来说,通过训练数据可以得到一个较为拟合的函数,在使用测试数据时,可以使用不同的阈值,会得到不同的混淆矩阵,为了方便比较各个混淆矩阵的优劣,可以使用ROC图像找到效果较好的阈值。图像纵轴是Sencitivity,横轴一般是1-Specificity,当实际中真阳性较多时,可以使用准确度(=FP/(TP+FP))作为横轴。 对不同算法来说,可以通过比较ROC图像下的面积AUC来判断哪个算法更适合当前的数据情况,面积大的更优良
使用道具 举报 回复
152****0061 发表于 2020-7-14 23:33:18
33#
#Day2 + 学习笔记 +07/14
day2笔记.png
使用道具 举报 回复
138****5447 发表于 2020-7-14 23:41:32
34#
# Day 2+学习笔记+07/14


灵敏度(Sensitivity) = TP/(TP+FN)


特异度(Specificity) = TN/(FP+TN)


真正率(TPR) = 灵敏度 = TP/(TP+FN)


假正率(FPR) = 1- 特异度 = FP/(FP+TN)


ROC(Receiver Operating Characteristic)曲线,又称接受者操作特征曲线。该曲线最早应用于雷达信号检测领域,用于区分信号与噪声。后来人们将其用于评价模型的预测能力,ROC曲线是基于混淆矩阵得出的。

ROC曲线中的主要两个指标就是真正率和假正率,上面也解释了这么选择的好处所在。其中横坐标为 假正率(FPR,纵坐标 真正率(TPR)。
使用道具 举报 回复
134****0722 发表于 2020-7-14 23:51:51
35#
Day 2-学习笔记-07/14
4、敏感性及特异性
敏感性  是指算法正确识别有心脏病的百分比        真阳性/(真阳性+假阴性)
特异性  是指算法正确识别没有心脏病的百分比      真阴性/(真阴性+假阳性)
如果正确识别阳性对数据最重要  选择一个敏感性更高的方法
否则,应该更加关注特异性
5、偏差及方差
线性回归(最小二乘法
像线性回归这样的机器学习方法无法捕捉真实关系,我们把这种情况叫做偏差。
机器学习中将不同数据集经拟合得出的差异成为方差
不规则曲线   
计算了训练集差值的平方和  测试集差值的平方和
由于不规则曲线在拟合训练集上表现极佳,在测试集数据上却表现很糟糕。
因此我们可以称不规则曲线模型过拟合。
在简单模型和复杂模型之间找到最佳点,通常有三种方法:regularization,boosting,bagging.
6、ROC AUC
ROC图代表了不同阈值产生的所有的混淆矩阵,无需对混淆矩阵进行排序,可以确定某处对应的阈值优于另一处对应的阈值
(它是由真阳性率和假阳性率绘制而成,以此来汇总混淆矩阵的信息)
同时也有其他方法来汇总混淆矩阵的信息  比如用精确度来替换假阳性率
精确度等于真阳性/(真阳性+假阳性),精确度是描述正确分类的阳性结果的比例。
AUC(曲线下方区域)
AUC可以轻松地将一条ROC曲线与另一条曲线进行比较,AUC面积越大,该方法的效果越好
总结:ROC曲线可以轻易确定决策时的最佳阈值,这个阈值比另一阈值效果更好;AUC可以帮你确定哪种分类方法更好。
7、R语言中的ROC AUC
随机森林是一种样本分类方法
rnorm()函数,从正态分布中生成xx个随机值
sort()函数将数字从低到高排序
glm()函数,将数据拟合成逻辑回归曲线,glm()函数的结果保存在一个名为glm.fit的变量中

使用道具 举报 回复
189****9142 发表于 2020-7-15 08:22:23
36#
Day2 ROC和AUC
1、ROC图
以Y轴表示敏感性值,X轴表示1-特异性值。
代表了不同阀值产生的所有混淆矩阵,无需对混淆矩阵进行排序,可以确定某处对应的阀值优化另一某处对应的阀值,最终得出最佳阀值。
2、AUC
ROC曲线下方区域(即ROC曲线与X轴,Y轴构成的区域)就称为AUC。
AUC可以用来比较两根ROC曲线,AUC面积越大,表明对应的ROC曲线效果越好,即对应的采用算法效果更好。
3、使用R语言实现绘制ROC图,计算AUC值。


使用道具 举报 回复
189****7368 发表于 2020-7-15 13:17:43
37#
day1
学习笔记
七月十五号
使用道具 举报 回复
152****0061 发表于 2020-7-15 16:59:54
38#
#Day3 + 学习笔记 +07/15
ML_D3.png

使用道具 举报 回复
155****1852 发表于 2020-7-15 21:36:41 来自手机
39#
#Day3+学习笔记+07/15      线性回归是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。其表达形式为y = ax+b。最小二乘法是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。 Odds是完成某件事与未完成的比例,可以用可能性概率比值来求,Odds=!Odds rate。log(Odds)能够让Odds对称表示。
使用道具 举报 回复
189****5605 发表于 2020-7-15 21:53:04
40#
bbs.xfyun.cn
使用道具 举报 回复