帖子

《A.I.开发者大赛专题学习》学习笔记分享园地 | 讯飞AI大学

  [复制链接]
132****1865 发表于 2020-7-16 15:12:16
11#
#Day 3+学习笔记+07/16
## 移动广告算法挑战赛冠军团队


任务
依靠强大海量的数据作为支撑,依据样本构建模型,预测流量作弊与否


赛题分析
题目是二分类问题,用广告请求的特征预测请求是否作弊。
##特征:1、媒体信息 2、网络信息 3、设备的软硬件属性和id

数据分析
1、缺失值分析
2、unique(imemd5)
3、IMEI研判
4、IMEI、MD5逆向方案

——》找到或者建立出一个特征,这个特征所包含的信息是其他特征所不包含的

模型训练
#模型选择:Catboost
#模型融合提升较小,最终使用单模

价值探讨
#校验策略升级(难以实施)
#替换校验值(需要时间)


使用道具 举报 回复
153****8260 发表于 2020-7-16 22:30:04
12#
# Day3 学习笔记 7月16日
## 阿尔茨海默综合症预测思路
###
* 赛题条件:语言障碍,人力成本
* 数据处理诊断标准:对话平均沉默次数(看图趋势),平均完成测试时长(看图趋势),被测试者平均说话次数(看图趋势),平均每句话时长(看图趋势)
* 整个过程:探索过程和建模过程可解释性,严谨
* 建模思路:病号特征统计量,相比AD患者
* 统计特征,时序特征,其他特征
* 模型构建:罗辑回归更具有可解释性,但无法直接处理多分类,one-vs-all进行分类,利用逻辑回归处理
* 整个过程总结:
1. 查阅资料
2. 文本数据统计
3. 语音处理
4. 建模
* PS:整个过程帮助我们了解关于AD的知识,帮助我们交接其他领域的知识,以及这个赛题背后的意义

使用道具 举报 回复
133****2471 发表于 2020-7-16 22:51:14
13#
day3
特征工程

1.统计特征均值、最值、方差、峰峰值、偏度、中位数、 Unique等基本统计特征统计特征的比例特征,类别特征的比例特征,连续值分箱特征
2.一阶二阶变化率特征一阶梯度、二阶梯度、差分、变化率等特征
3.频域特征离散傅里叶变换之后的上述統计特征,以及幅值、频率特征
4.相关系数特征


特征增强
考虑到数据较长以及异常值较多问题,采用基于片段的特征抽取方法
通过这种方法增加7组分段,对每个分段做特征,可以提升2个百分点左右(先分5段,重分2段)

特征选择
统计特征的U∪ nique,设定阈值,去除特征中 Unique很小的特征,也就是去掉静态列
统计特征间的皮尔逊相关系数,设定岡值,去除皮尔逊相关系数较高的特征
去掉以结果为导向的,重要性为0或者重要性较低的特征

模型
采用 Lightgbm单模型,具有完全的可解释性,没有融合和多模型,效率高
多折叉验证的方式
考虑到labe跨度大,对abel掐头去尾,并采用og处理,以及基于 Lightgbm的模型指标优化

针对赛题选择特定的指标函数对数的引入使MSLE反应出真实值和预测值之间的相对差
相对于预测值大于真实值,预测值值小这种情況的惩罚比较大
指标很适合实际场景,例如:1000小时差距100小时则可以接受,但是剩余200小时差距100小时就需要惩罚较大
预测的结果肯定有的高于真实值,有的低与真实值。按照上面分析的结果,只要保证实际值低的数据更加准确,就能提升整体效果,实际中采用将预测结果后处理的方式进行指标优化,有5个干的提升

总结思考
处理方案对其他的工业预测问题有良好的泛化作用,有较强的通用性;采用树模型单模型,效率高,并且具备可解释性
后续思考:考虑到不同设备类型之前的差异(空间向题),而且数据为时序(时间问题),可以将问题可以抽象成一个时空问题,这个问题也可以采用当前非常热的图神经网络通过时空特性构建图来解决,一般会有很好的效果。但可能还需要更多的数据上的支持


使用道具 举报 回复
152****5289 发表于 2020-7-17 18:18:26
14#
#Day 1+学习笔记+07/17
工程机械核心部件寿命预测挑战赛
赛题介绍
难点:
  • 数据量少,训练集916条原始数据,如何能充分利用有限的数据很关键
  • 数据给出的是整个寿命周期的数据,如何划分训练集也是关键问题
  • 数据异常值非常多,存在非常多的负值和突变值,对数据处理要求较高
  • 数据均为专业的工业数据指标,对实际背景和数据的含义理解有限
特征与模型
1. 统计特征
均值、最值、方差、峰峰值、偏度、中位数、Unique等基本统计特征
统计特征的比例特征、类别特征的比例特征、连续值分箱特征
2. 一阶二阶变化率特征:一阶梯度、二阶梯度、差分、变化率特征
3. 频率特征:离散傅里叶变换之后的上述统计特征、以及幅值、频率特征
4. 相关系数特征
模型的指标优化:RMSLE

使用道具 举报 回复
153****8260 发表于 2020-7-17 21:16:46
15#
# Day4 学习笔记 7月17日
## 工程机械核心部件寿命预测赛题
### **:数据分析,模型
### 难点:
1. 数据少
2. 划分数据集
3. 数据处理
4. 数据含义理解
* 数据分析处理针对连续特征和类别特征
* 主要分析方法:数据可视化
---
### 步骤:
* 多比例划分训练集
* 异常数据分析处理:
1. 删除个别异常数据
2. 负值及突变数据处理
* 特征工程
1. 统计特征
2. 一阶二阶变化率特征
3. 频域特征
4. 相关系数特征
* 特征选择
* 模型阶段

使用道具 举报 回复
133****2471 发表于 2020-7-17 23:20:41
16#
# Day4 学习笔记 7月17日

##阿尔茨海默综合症预测赛题
实现方法
计算病号对所有病理特征的统计特征,从而衡量出病号之间的相似度并进行预测,计算得到一个排序的诊断结
果。


# 特征构建
## 统计特征
完成测试时间
・对话句子数量
对话时长平均值和标准差
・语音长度占比(对话比率、沉默比率)
对话反应时间
・语速特征(mean、max、min、std)
语气词(有声停顿)的次数
修正、重复、语法错误的次数


## 时序特征
各阶自相关系数的聚合统计特征
分组
绝对能量值
偏度(skew)、峰度( kurtosis)
傳里叶变换系数


## 其他特征
声学 EGEMAPS'特征
LDA特征(文档主题)
多项式特征
教百水平


模型构建
逻辑归回无法直接处理多分类,因此采用one-vs-al的投票机制完成多分类评测,即构建多个分类器,对于每一个类
假设其为正类,其余为负类,然后使用逻辑归回进行判别

赛题总结
1、了解赛题背景和查阅相关资料有助于构建模型
2、可以用梳理统计的方法对文本数据进行统计
3、可以学习到音频数据的处理方法
4、选择合适的模型


赛题总结
1、目前全世界约有5000万人患有阿尔茨海默综合症或其他种类的痴呆症
2、截至2019年,中国有1000多万AD患者,是全球患者数量最多的国家
3、我国自主研制的阿尔茨海默症治疗新药“九期一"已投产,该药可改善轻度至中度阿尔茨海默症患者认知功能障碍
4、每年9月21日是“世界老年痴呆日

使用道具 举报 回复
152****8001 发表于 2020-7-18 00:03:22
17#
# Day4 学习笔记 7.17
## 工程机械核心部件寿命预测赛题


### 赛题分析


任务属于时序预测问题


#### 难点:


1. 数据量少,涉及到数据的充分利用


2. 数据集的划分
3. 异常值处理
4. 对实际背景和数据含义的理解


### 题解过程


#### 1. 数据分析与处理


##### 特征提取


对连续特征和类别特征进行特征提取。


###### 连续特征


- 统计特征
- 特征分箱
- 特征压缩
- 归一化
- 标准化
- ......


###### 类别特征


- one-hot 编码
- 加入模型的类别特征
- 类别分箱
- ......


##### 数据集划分


采用多比例划分数据集,有助于提高成绩


##### 异常数据处理


删除异常数据、负值及突变数据处理


##### 特征增强


基于数据较长以及异常值较多的问题,采用基于片段的特征抽取方法。对多个片段分别进行特征提取


#### 2. 建模部分


采用 LightGBM 模型,具有完全可解释性,效率高。考虑到 label 跨度大,对 label 采用 log 处理,基于 LightGBM 模型指标进行优化


### 总结


1. 全面的数据分析、多角度特征提取
2. 单模型效率高,具备可解释性
3. 合适的时序模型选择


使用道具 举报 回复
177****0809 发表于 2020-7-18 11:31:04
18#
#Day 3 学习笔记 07/18

#阿尔兹海默综合征预测赛题:基于老年人参加看图说话任务的音频和文本,构建模型自动筛查出AD患者
#本质:多分类问题,即健康或患病程度分类
1. 数据集:患者谈话内容录音
2. 特征:统计特征、时序特征和其他特征,特征包括对话平均沉默次数、平均完成测试时长、被测者平均说话次数等。
3. 建模过程计算所有病理特征的统计特征,得出病号相应特征相似度,并
采用 One-vs-All 投票机制
获诊断结果,
完成多分类任务即老年人健康或患病的疾病预测

4. 总结:特征提取影响模型效益;模型的合理选择益于获得更准确的预测结果

使用道具 举报 回复
133****2471 发表于 2020-7-18 17:49:47
19#
#Day5+学习笔记+07/18
大数据应用分类标注挑战赛
1.赛题理解
赛题类型:126个类别的分类问题
评测标准:TOP2准确率
初赛任务:给定应用描述文本进行应用分类
初赛数据:训练集30000条,测试集99999条
复赛任务:自行爬取数据,根据应用名称和应用包名对应用进行分类
复赛数据:训练集20000条,测试集80000条
无法通过样本ID等特征将初赛样本和复赛样本对应上
2.思路:爬取应用描述文本,再像初赛那样利用文本分类技术来做
        应用描述数据(七麦网)
        搜索引擎结果数据(百度和必应)
3.解题方法:数据清洗、数据爬取、数据匹配、模型训练、模型预测、规则匹配

使用道具 举报 回复
152****8001 发表于 2020-7-18 21:08:14
20#
#Day 5+学习笔记+07/18
大数据应用分类标注挑战赛赛题分析
初赛任务是给定应用描述文本进行应用分类
复赛任务需要自行爬取数据,根据应用名称和应用包名对应用进行分类
难点:
因为在当前的自然语言处理领域里,分类问题的模型很成熟,拉开差距的地方主要在爬取更有效的文本描述信息
题解过程1. 数据分析与处理数据清洗
比如将应用包名中带有(百度手机助手)字样的文本进行清洗。
对连续特征和类别特征进行特征提取。
数据爬取
从应用商店网站爬取应用描述
从七麦数据爬取应用描述
数据匹配
将爬取的数据与原有样本进行匹配。优先匹配包名。然后匹配应用名称,采取合适的方法匹配多条数据
2. 模型训练
对每个数据集,使用 BERT 和 XLNet 预训练模型来训练文本分类模型
对不同的测试集样本,使用不同的模型进行预测
规则匹配
基本思想:测试集中有很多应用在测试集中出现,可以通过匹配的方式来获取结果
总结
  • 在模型差距不大的时候,数据对于结果的提高有很大的影响
  • 有时候测试集和训练集的匹配有利于对结果的提升(trick)
  • 使用更好的模型融合策略


使用道具 举报 回复