帖子

《A.I.开发者大赛专题学习》学习笔记分享园地 | 讯飞AI大学

[复制链接]
  • TA的每日心情
    开心
    2020-6-17 09:20
  • 签到天数: 15 天

    [LV.4]偶尔看看III

    33144  楼主| AI小助手 发表于 2020-7-6 11:46:55 1#
    AI大学.jpg


    《2019 A.I.开发者大赛算法挑战最优解获奖团队赛题详解》学习笔记分享园地


    内容简介:
    科大讯飞2020 iFLYTEK A.I.开发者大赛已经在6月22日正式开赛,大赛一经启动便吸引了众多参赛者前来报名,为了回馈大家的热情,AI大学精心制作了《2019 A.I.开发者大赛算法挑战最优解获奖团队赛题详解》系列课程。

    课程邀请了2019 iFLYTEK A.I.开发者大赛工程机械核心部件寿命预测挑战赛、大数据应用分类标注挑战赛、阿尔茨海默综合症预测挑战赛、移动广告算法挑战赛部分获奖团队为大家分享自己的解决方案。


    科大讯飞A.I.开发者大赛火热报名中http://challenge.xfyun.cn/?ch=dxg(奖金池180W)

    定位人群:
    ①对科大讯飞2020 iFLYTEK A.I.开发者大赛感兴趣的同学
    ②想在2020 iFLYTEK A.I.开发者大赛取得名次的同学
    ③需要有一定的编程语言基础

    课程时长:
    8-15天

    任务路线:
    • 工程机械核心部件寿命预测挑战赛冠军团队分享
    • 大数据应用分类标注挑战赛冠军团队分享
    • 阿尔茨海默综合症预测挑战赛季军团队分享
    • 移动广告算法挑战赛冠军团队分享
    • 移动广告算法挑战赛季军团队分享

    上课形式:
    已录制好的课程视频,大家一起在社群内打卡学习,互相交流,共同成长,如想入群,请扫描课程安排上的二维码,添加为好友。备注“赛题详解”入群。

    报名时间:   
    即日起至7月20日。

    开课时间:

    2020年7月中旬

    课程安排
    小助手 赛题.png

    暑期训练营活动链接:5门AI免费课程任你选!讯飞AI大学暑期组队学习计划报名开启



    177****0809 发表于 2020-7-14 15:55:47
    2#
    Day1 学习笔记 07/14
    今天听了《移动广告算法挑战赛冠军团队》的分享。有几点收获:1、要善于分析赛题,找出解决问题的根本点,在此基础上进行相关的细节拓展和完善,如移动广告算法的本质的解决一个二分类问题,在此基础上运用不同的模型等来解决问题。2、积极思考,另辟蹊径,找到其他团队可能不会想到的方法来解决问题。这有难度,但可在过程中边实践边思考。3、学无止境。不断学习,寻找灵感和新思路。
    PS:非常希望能有偏重实践的课程,后期是否能开源部分项目?
    使用道具 举报 回复
    152****8001 发表于 2020-7-14 17:22:02
    3#
    本帖最后由 152****8001 于 2020-7-14 17:23 编辑

    #Day 1+学习笔记+07/14
    移动广告反欺诈算法任务:基于讯飞提供的海量的现网流浪数据构建模型,预测流量作弊与否(二分类问题)
    题解过程
    1. 赛题分析
    数据集各字段分析、赛题任务分析
    2. 数据分析
    缺失值异常值处理,字段分析(提取关键字段,这里集中于 IMEI 字段)
    3. 集中 IMEI 分析
    确定对判断有帮助的数值位
    4. Catboost 训练
    总结
    • 特征工程。理解题意,字段分析与处理(异常字段处理、无关字段或重复字段略去、重要字段特征提取)
    • 模型训练。选择合适的模型,使用调参、该模型等等方式提高。



    使用道具 举报 回复
    153****8260 发表于 2020-7-14 21:12:59
    4#
    # Day1 学习笔记 7.14
    ## 移动广告反欺诈算法大赛分享听课笔记
    * md5是最强的用户标识
    * IMEI:国际移动设备识别码
    * 首先IMEI研判,分析IMEI特征
    * 关键问题,在于建立一个特征,其中包含的信息是其他特征不包含的。
    使用道具 举报 回复
    133****2471 发表于 2020-7-14 23:23:07
    5#
    Day1 学习笔记 07/14一赛题分析题型:时序预测类型目标:剩余寿命
    难点:
    数据量少,训练集916条原始数据,如何能充分利用有限的数据很关键
    数据给出的是整个寿命周期的数据,如何划分训练集也是关键问题;
    数据异常值非常多,存在非常多的负值和突变值,对数据处理要求较高;
    数据均为专业的工业数据指标,对实际背景和数据的含义理解有限;







    使用道具 举报 回复
    152****8001 发表于 2020-7-15 17:33:00
    6#
    #Day 2+学习笔记+07/15
    移动广告反欺诈算法-季军队任务:基于讯飞提供的海量的现网流量数据构建模型,预测流量作弊与否(二分类问题)题解过程1. 赛题分析
    数据集各字段分析:数据集有大量的类别信息,首先想到决策树模型,有 lightgbm、xgboost、catboost,分别尝试,融合尝试,最终选用了 catboost。
    2. 数据分析
    数据预处理、字段分析
    3. 特征工程
    (1)原有类别特征
    (2)统计特征
            数值相关性分析(相关性高的,尝试进行一些交互特征)
    • 类别特征的 count
    • 交叉类别的 count
    • 通过某一类 id 使用多种设备 unique
    • ......

    (3)欺诈率特征
            广告欺诈团伙化地域化的数据探索(ip字段、adid字段等等)
    • “城市”
    • “设备”
    • “机型”

    (4)特征重要性
    4. 探索
    尝试新的数据集、新的模型、新的特征工程
    总结
    • 由任务要求与提供的数据集确定使用的模型,尝试不同模型,融合模型等多种方式
    • 特征工程的想象力发散空间很大、从不同角度会得到不同的效果,没有定解,具体问题具体分析。


    使用道具 举报 回复
    153****8260 发表于 2020-7-15 22:48:39
    7#
    # Day2 学习笔记 7月15日
    ## 题目:
    * 赛题背景:广告欺诈,故意制造商品服务的假象,隐瞒事实的真相,消费者错误决策的行为
    * 基本信息:样本id/请求会话sid,判断是否作弊label
    * 数据背景:IP信息,结合设备信息进行判断
    * 数据探索,大小写,中英文统一进行数据清洗
    * 广告欺诈具有团伙性,发现字段很多前面都一样,把相同字段截取出来,作为特征进行查找其它的欺诈团伙
    * 特征工程:原始类别信息都加进去
    * 欺诈率特征:城市,设备,机型
    * 广告欺诈-特征工程-构建新的训练集合-新的模型
    * 自己做:增加样本数据,构建多重“UID”,构建用户标签,尝试多种模型


    使用道具 举报 回复
    133****2471 发表于 2020-7-15 23:01:41
    8#
    day2 学习笔记 07/15
    数据分析与处理
    连续:统计特征,数据洗,特征分箱,特征压缩,归一化,标准化
    离散:one-hot编码,加入模型的类别特征,类别分箱
    结论:工作时长与设备类型有关;工作时长呈现典型的长尾分布,测试集2与训练集在同分位数下的比例大致为0.7(初赛为0.63)

    训练集划分:
    按照实际比例(0.7)划分训练集:缺点:数据量没有达到扩充,划分比例固定
    采用随机划分,划分比例均值设定为0.7: 缺点:划分比例随机,后面做特征不方便调试

    改进:采用多比例划分训练集(提升3个百分点):优点:训练集数据样本扩大为1之前的10倍,大大提高了效果,划分比例确定便于后续调试与生成特征

    异常数据分析:
    1.删除个别异常数据
    结合可视化分析结果。K- Means聚类等方法
    以结果为导向的验证集反馈的方法
    共删除6条异常数据,前期可以提升2个百分点左右
    2.负值及突变数据处理:
    部件工作时长、累积量参数1、累积量参数2的负值,依据工业传感
    器特性,负值内部与正值内部均为递增数据,进行修正
    温度异常数据处理,取绝对值;去除突变及异常值
    利用平滑滤波等手段,使突变数据平滑
    采用上面的办法处理异常数据,可以提高1个百分点左右

    使用道具 举报 回复
    177****0809 发表于 2020-7-16 11:23:42
    9#

    RE: 《A.I.开发者大赛专题学习》学习笔记分享园地 | 讯飞AI...

    Day2 学习笔记 07/16

    ##移动广告反欺诈算法-季军队任务:基海量现网流量数据构建模型并预测流量作弊行为
    本质:二分类问题
    1. 模型:
    决策树模型: lightgbm、xgboost、catboost及其融合,测试效果显示catboost最佳
    2. 数据预处理:
    统一手机品牌型号并作ONE-HOT处理等
    3. 特征工程:
    原有类别特征统计特征数值相关性分析)欺诈率特征广告欺诈团伙化地域化的数据探索,如ip、adid字段等)
    4. 创新:
    尝新的模型、探索不同特征在不同模型中的表现、对数据进行预处理后探索不同类别的数据对广告欺诈的影响
    5. 总结:
    不同模型的性能不同,融合可能会获得更好的性能;特征设计影响模型效益;增加训练数据可使模型泛化能力更强

    使用道具 举报 回复
    152****8001 发表于 2020-7-16 11:38:39
    10#
    #Day 3+学习笔记+07/16
    阿尔兹海默综合征预测赛题任务:基于老年人参加看图说话任务的音频和文本,构建模型自动筛查出AD患者(分类问题)题解过程1. 数据探索
    数据集主要内容是谈话内容和录音。基于AD患者特质提取数据特征探索,主要使用数理统计方法,确定具体有效的病理特征指标有对话平均沉默次数、平均完成测试时长、被测者平均说话次数等等。
    2. 建模过程
    计算病号对所有病理特征的统计特征,衡量出病号的相似度并进行预测,得到一个排序的诊断结果。
    确定总体特征构建:
    • 统计特征
    • 时序特征
    • 其他特征

    基于赛题,这里选择可解释性更强的逻辑回归。采用 One-Vs-All 的投票机制完成多分类评测,即构建多个分类器,然后使用逻辑回归进行判别
    总结
    • 了解赛题背景有助于进行特征提取
    • 数据探索中应用到的数理统计方法
    • 合适的模型选择

    拓展: One-Vs-All 的投票机制
    逻辑回归分类器(Logistic Regression Classifier)常用于解决二分类(Binary Classification)问题。One-Vs-All 可以扩展逻辑回归使其成为多分类器。
    One-Vs-All(或者叫 One-Vs-Rest)的思想是把一个多分类的问题变成多个二分类的问题。转变的思路是依次选择其中一个类别为正类(Positive),使其他所有类别为负类(Negative)。按这样得到多个二元分类器。。在预测阶段,每个分类器可以根据测试样本,得到当前正类的概率。选择计算结果最高的分类器,其正类就可以作为预测结果。
    优点:普适性还比较广,可以应用于能输出值或者概率的分类器,同时效率相对较好,有多少个类别就训练多少个分类器。
    缺点:很容易造成训练集样本数量的不平衡(Unbalance),尤其在类别较多的情况下,经常容易出现正类样本的数量远远不及负类样本的数量,这样就会造成分类器的偏向性。

    使用道具 举报 回复