帖子

《机器学习入门》学习笔记分享园地 | 讯飞AI大学

  [复制链接]
188****6584 发表于 2020-7-31 20:32:30
151#
28. Gradient Boosting回归
①初始值为log(odds)
e.g. 4YES 2NO
转换成概率
因为yes的概率更高,所以初始值设为yes
②用概率值计算伪残差
③建立决策树(输出值为概率)
④转换
⑤用学习率缩放,计算预测值
⑥用新的预测值计算残差

使用道具 举报 回复
189****9142 发表于 2020-7-31 21:40:48
152#
Day19 随机梯度下降法、AdaBoost算法
1、随机梯度下降法
1.1、随机梯度下降法是每进行一次迭代,就只使用一个样本。但更常见的做法是,每进行一次迭代,选择一小部分数据或者小批量数据进行处理。
1.2、优点:当得到新数据时,可以轻易使用它进行参数估计的迭代,不必从头开始。
学习率从大到小变化叫做调度。
2、AdaBoost算法
只有一个节点和两个叶子节点的决策树叫做树桩。
使用AdaBoost算法创建树桩森林
(1)AdaBoost结合很多“弱学习者”来进行样本分类,这些“弱学习者”总是以树桩形式呈现。
(2)有些树桩在分类上比其他树桩“更有发言权”。
(3)每个树桩产生的误差都会影响后一个树桩的形成。
第一个决策树产生的误差会影响第二个树桩的形成,第二个决策树产生的误差会影响第三个决策树的形成,依次类推。

使用道具 举报 回复
138****5447 发表于 2020-7-31 22:08:37
153#
#Day19+学习笔记+07/31

K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。

K 近邻算法使用的模型实际上对应于对特征空间的划分。K 值的选择,距离度量和分类决策规则是该算法的三个基本要素:
  • K 值的选择会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用,但容易发生过拟合;如果 K 值较大,优点是可以减少学习的估计误差,但缺点是学习的近似误差增大,这时与输入实例较远的训练实例也会对预测起作用,使预测发生错误。在实际应用中,K 值一般选择一个较小的数值,通常采用交叉验证的方法来选择最优的 K 值。随着训练实例数目趋向于无穷和 K=1 时,误差率不会超过贝叶斯误差率的2倍,如果K也趋向于无穷,则误差率趋向于贝叶斯误差率。
  • 该算法中的分类决策规则往往是多数表决,即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别
  • 距离度量一般采用 Lp 距离,当p=2时,即为欧氏距离,在度量之前,应该将每个属性的值规范化,这样有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大。


使用道具 举报 回复
189****9142 发表于 2020-8-1 10:41:59
154#
Day20 梯度提升算法-简介
当梯度提升算法用于预测连续值(如体重)时,称使用提升算法进行回归(不同于线性回归)。
梯度提升算法中决策树的创建也基于前一个决策树的误差,但梯度提升算法构建出的决策树通常比树桩更大。
工作步骤
①从一个叶子节点的值开始,该值为我们要预测的变量的平均值。
②然后根据残差(测量值与预测值之差)创建一个决策树,并通过学习率对该决策树的结果进行缩放,然后计算最终预测值。
③根据新的残差添加另一个决策树,并根据前一个决策树的误差继续创建决策树。

使用道具 举报 回复
181****4733 发表于 2020-8-1 17:04:37
155#
#Day20+学习笔记+08/01
  • 梯度下降(Gradient Descent):使损失函数的值最小化,从而提高模型的准确率
  • 学习率(Learning Rate):控制每一轮迭代的步长。太大容易越过最低点,太小迭代次数多
  • 在实际应用中,学习率会随着迭代次数由大变小
  • 在梯度下降中要对每一个参数求偏导
  • 随机梯度下降(Stochastic Gradient Descent):随机选取数据集的子集做梯度下降,从而减少计算时间

使用道具 举报 回复
138****5447 发表于 2020-8-1 17:08:41
156#
#Day20+学习笔记+08/01




决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
使用道具 举报 回复
188****6584 发表于 2020-8-1 22:05:59
157#
29. curve拟合(多段最小二乘)
①选取窗口,在窗口内使用加权最小二乘,离焦点越近,权重越大
(用横坐标差衡量距离),得到粗预测值②根据预测点与原始点的距离,再做一次加权(为消除异常值影响)
③可以用直线拟合也可以抛物线等
30. PCA
①降维:用重要的维度(比如电影拍摄的是3d物品,但是2d呈现)
②主分量PC1是数据变化最大的轴

使用道具 举报 回复
138****5447 发表于 7 天前
158#
#Day21+学习笔记+08/02


随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。


根据下列算法而建造每棵树 [1]
  • N来表示训练用例(样本)的个数,M表示特征数目。
  • 输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M
  • N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。
  • 对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。
  • 每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用)。


使用道具 举报 回复
189****9142 发表于 7 天前
159#
Day21 梯度提升算法-细节
用梯度提升算法进行回归时,最常用的损失函数是1/2*(测量值 - 预测值)^2。

使用道具 举报 回复
181****4733 发表于 7 天前
160#
#Day21+学习笔记+08/02
  • 对于特征量多,样本量大的数据集,使用梯度下降计算量会过于庞大
  • 随机梯度下降(Stochastic Gradient Descent):当存在样本冗余时,随机挑选样本进行梯度下降从而减少计算量
  • 随机梯度下降对学习率很敏感,一般先选取较大的学习率,然后逐渐减小
  • 学习率从大到小变化叫做调度(Schedule)
  • 在实际应用中,随机梯度下降每次会选取一小批样本进行梯度下降而不是一个样本,提高速度


使用道具 举报 回复