Day 2-学习笔记-07/14 4、敏感性及特异性 敏感性 是指算法正确识别有心脏病的百分比 真阳性/(真阳性+假阴性) 特异性 是指算法正确识别没有心脏病的百分比 真阴性/(真阴性+假阳性) 如果正确识别阳性对数据最重要 选择一个敏感性更高的方法 否则,应该更加关注特异性 5、偏差及方差 线性回归(最小二乘法 ) 像线性回归这样的机器学习方法无法捕捉真实关系,我们把这种情况叫做偏差。 机器学习中将不同数据集经拟合得出的差异成为方差 不规则曲线 计算了训练集差值的平方和 测试集差值的平方和 由于不规则曲线在拟合训练集上表现极佳,在测试集数据上却表现很糟糕。 因此我们可以称不规则曲线模型过拟合。 在简单模型和复杂模型之间找到最佳点,通常有三种方法:regularization,boosting,bagging. 6、ROC 和AUC ROC图代表了不同阈值产生的所有的混淆矩阵,无需对混淆矩阵进行排序,可以确定某处对应的阈值优于另一处对应的阈值 (它是由真阳性率和假阳性率绘制而成,以此来汇总混淆矩阵的信息) 同时也有其他方法来汇总混淆矩阵的信息 比如用精确度来替换假阳性率 精确度等于真阳性/(真阳性+假阳性),精确度是描述正确分类的阳性结果的比例。 AUC(曲线下方区域) AUC可以轻松地将一条ROC曲线与另一条曲线进行比较,AUC面积越大,该方法的效果越好 总结:ROC曲线可以轻易确定决策时的最佳阈值,这个阈值比另一阈值效果更好;AUC可以帮你确定哪种分类方法更好。 7、R语言中的ROC 和AUC 随机森林是一种样本分类方法 rnorm()函数,从正态分布中生成xx个随机值 sort()函数将数字从低到高排序 glm()函数,将数据拟合成逻辑回归曲线,glm()函数的结果保存在一个名为glm.fit的变量中
|