#Day 3+学习笔记+07/16
阿尔兹海默综合征预测赛题任务:基于老年人参加看图说话任务的音频和文本,构建模型自动筛查出AD患者(分类问题)题解过程1. 数据探索数据集主要内容是谈话内容和录音。基于AD患者特质提取数据特征探索,主要使用数理统计方法,确定具体有效的病理特征指标有对话平均沉默次数、平均完成测试时长、被测者平均说话次数等等。 2. 建模过程计算病号对所有病理特征的统计特征,衡量出病号的相似度并进行预测,得到一个排序的诊断结果。 确定总体特征构建: 基于赛题,这里选择可解释性更强的逻辑回归。采用 One-Vs-All 的投票机制完成多分类评测,即构建多个分类器,然后使用逻辑回归进行判别 总结了解赛题背景有助于进行特征提取 数据探索中应用到的数理统计方法 合适的模型选择
拓展: One-Vs-All 的投票机制逻辑回归分类器(Logistic Regression Classifier)常用于解决二分类(Binary Classification)问题。One-Vs-All 可以扩展逻辑回归使其成为多分类器。 One-Vs-All(或者叫 One-Vs-Rest)的思想是把一个多分类的问题变成多个二分类的问题。转变的思路是依次选择其中一个类别为正类(Positive),使其他所有类别为负类(Negative)。按这样得到多个二元分类器。。在预测阶段,每个分类器可以根据测试样本,得到当前正类的概率。选择计算结果最高的分类器,其正类就可以作为预测结果。 优点:普适性还比较广,可以应用于能输出值或者概率的分类器,同时效率相对较好,有多少个类别就训练多少个分类器。 缺点:很容易造成训练集样本数量的不平衡(Unbalance),尤其在类别较多的情况下,经常容易出现正类样本的数量远远不及负类样本的数量,这样就会造成分类器的偏向性。
|