帖子

《机器学习入门》学习笔记分享园地 | 讯飞AI大学

  [复制链接]
138****5447 发表于 2020-7-13 22:10:11
11#
本帖最后由 138****5447 于 2020-7-13 23:36 编辑

#Day1+ 学习笔记 +07/13


1. 今天学习了机器学习的简介,没想到课程是英文。不过好在视频讲解的比较生动附有配色让人容易理解。


2. K折验证 通过使用sklearn model_selection里带的KFold测试 K的范围为2~数据集的大小,超出或小于会有异常。


3. 混淆矩阵 通过对角线判断准确率 简洁明了
使用道具 举报 回复
开放平台用户-m78kwc 发表于 2020-7-13 22:30:34
12#
本帖最后由 开放平台用户-m78kwc 于 2020-7-14 12:18 编辑

#Day 1-学习笔记-07/13:
学习内容:课程概述与交叉验证。
课程概述:
主要介绍了机器学习的用途:用于进行预测与分类。
训练数据用于获得合适的模型,测试数据则用于判断该模型的准确度。
评价一个模型的好坏在于所做的预测与测试数据相差有多大。
不要被机器学习方法和训练数据的匹配程度所愚弄。
对训练数据拟合好,对测试数据表现表现不佳——偏差方差权衡

交叉验证:
如何使用获得的数据。
将数据划分K份-K折,K折交叉检验
极端,每一个sample都作为1份,留一交叉检验。
对不同的机器学习方法进行交叉检验并进行对比,可以比较出哪种机器学习方法性能更优。

使用道具 举报 回复
181****4733 发表于 2020-7-13 22:36:41
13#
# Day 1+学习笔记+07/13
1、一般将数据集分为两类:训练集(Training Set)和测试集(Test Set)
2、训练步骤:1.利用训练集训练模型 2.利用测试集来评估该模型(Model Evaluation)
3、模型目标:minimize Cost function。

交叉验证:
1、x-fold Cross Validation(x折交叉验证):将训练集分成x等分,轮流挑选一份作为CV Set并通过剩余数据训练的模型来统计CV Set的正确率。最后对比不同模型的正确率来挑选合适模型
2、Leave One Out CV(留一法):每一个数据作为单独一份进行测试

混淆矩阵(Confusion Matrix)
1、Sensitivity(敏感性):TP/(TP+FN) 该概率又叫Recall(召回率)
2、Specificity(特异性):TN/(TN+FP)
PS:补充 Precision(精准率):TP/(TP+FP)
       F1-Score=2PR/(P+R),用于评估模型

使用道具 举报 回复
泛海 发表于 2020-7-13 22:44:54
14#
#Day 1-学习笔记-07/13:
学习内容:课程概述、机器学习基础-交叉验证。
课程概述:
机器学:用于进行回归与分类。
训练数据:Training Data
测试数据:Testing Data

交叉验证:


K折交叉验证:K-fold cross validation
留一法: Leave-One-Out,简称LOO


混淆矩阵
真阳性 样本正, 结果正
假阳性 样本负, 结果正
真阴性 样本负, 结果负
假阴性 样本正, 结果负
使用道具 举报 回复
泛海 发表于 2020-7-13 22:58:00
15#
#Day 1+学习笔记+07/13
学习内容:课程概述、机器学习基础-交叉验证。
课程概述:
机器学:用于进行回归与分类。训练数据:Training Data
测试数据:Testing Data
交叉验证:
K折交叉验证:K-fold cross validation
留一法: Leave-One-Out,简称LOO
混淆矩阵
真阳性 样本正, 结果正
假阳性 样本负, 结果正
真阴性 样本负, 结果负
假阴性 样本正, 结果负


使用道具 举报 回复
136****6027 发表于 2020-7-13 22:59:32
16#
#Day 1-学习笔记-07/13
机器学习属于人工智能的一部分,可以分为分类和预测两大类。常用的方法有KNN,决策树,随机森林,SVM,逻辑回归等。
交叉验证/K折验证主要是为了避免数据集划分不均匀导致的拟合问题,得到更好的泛化效果。留一验证是极端的留下一个样本作为验证集的交叉验证方式。
混淆矩阵可以理解为N个样本预测结果的N*N矩阵的表示方式,X轴为预测结果,Y轴为实际结果展示出来预测的准确性,斜对角线上代表正确的预测结果。
敏感性(TP/(TP+FN))和特异性(TN/(TN+FP))通过两种不同的方式计算识别正向的准确率和负向的准确率,用于对机器学习算法的有效性在作用于实际问题上的选择。比如实际问题中,在心脏病预测上更倾向于找出有心脏病的(正向),在贷款发放时找出更有可能贷款不还/逾期的。


使用道具 举报 回复
134****0722 发表于 2020-7-13 23:08:28
17#
Day 1-学习笔记-07/13
简介:
预测和分类
使用测试数据来评估机器学习的方法
不要被方法与训练数据的匹配度所影响
(训练数据拟合情况较好,但是预测不好的现象称为“偏差-方差均衡”)
1、交叉验证
机器学习一些相关的方法有:K近邻算法,逻辑回归,支持向量机,随机森林等等
参数估计称为训练算法,评估算法的效果
测试算法 75%用于训练 25%用于测试
分别有留一交叉验证、十折交叉验证、四折交叉验证等
2、混淆矩阵
先划分数据集和测试集,对每种方法建立一个混淆矩阵
来对每一种方法进行相应的判断和评估

使用道具 举报 回复
152****6578 发表于 2020-7-13 23:30:47
18#
本帖最后由 152****6578 于 2020-7-13 23:32 编辑



#Day 1+学习笔记+07/13
课程简介
算法不是酷炫越好,要通过测试数据,看效果说话

机器学习基础--交叉验证 cross validation,判断计算各算法用于数据时的正误次数
常见四折、十折交叉验证,数据均分,不需要自己决定哪部分是训练数据,因为使用交叉验证的方法会将每一种可能都进行测试并逐一比较,选出最合适的一份

机器学习基础---混淆矩阵 Confusion Matrix,用于展示算法正误结果
当结果只有yes或no两种可能时,混淆矩阵是4x4,绿色对角线表示机器能正确识别的,红色为识别错误的,当结果更多时,混淆矩阵就更复杂

机器学习基础---敏感性和特异性 Sensitivite and Specificity,用于最后计算算法效果好坏
不管是几乘几的混淆矩阵,都需要记住行表示预测,列表示实际
一般先算敏感性,再算特异性,计算的时候不要晕
比较算法效果时,需要根据情况判断是看敏感性还是特异性


使用道具 举报 回复
182****6832 发表于 2020-7-13 23:34:29 来自手机
19#
Day-1打卡:机器学习 留一法主要对样本集按照一定比例分为训练集和验证集。对于100个样本集包含50个正样本和50个负样本。假设训练集所占比例为0.3,则分别从正样本集和负样本集中选取30%样本作为样本集,其余样本作为训练集。 十折交叉验证法,主要分别将正样本和负样本分别划分10个等份,每次从中选取其中的一份作为测试集,其余样本作为训练集。一共进行10次模型训练于验证。  模型的评估混淆矩阵;      精确率:在所有预测正类的样本中的正样本比例                 P=TP/(TP+FP)      召回率:在所有正样本比例中预测为正类的比例                R=TP/(TP +FN)      准确率:所有被正确分类的比例                Acc=(TP+TN)/总样本数      F1=2PR /(P+R)
使用道具 举报 回复
184****0669 发表于 2020-7-13 23:49:14
20#
本帖最后由 184****0669 于 2020-7-13 23:52 编辑

# Day 1+学习笔记+07/13
StatQuest   课程简介:
1.用Testing Data 评估机器学习的方法
2.贴合Training Data 的机器学习方法不一定准确。         
机器学习基础:
交叉验证:通过模块的交叉比较得出较好的实践估计。

使用道具 举报 回复