帖子

《A.I.开发者大赛专题学习》学习笔记分享园地 | 讯飞AI大学

[复制链接]
153****8260 发表于 2020-7-18 23:36:08
21#
# Day5 学习笔记 2020年7月18日
## 大数据应用分类标注挑战赛
### 赛题类型
126个类别的分类问题
### 赛题任务
* 初赛:给定应用描述文件进行应用分类
* 复赛:自行爬取数据,根据应用名称和应用包名对应用进行分类
### 初赛数据
训练集30000条,测试集99999条
### 获胜关键
如何获取更优质的数据?
### 解题方法
* 数据清洗
* 数据爬取
1. 从应用商店爬取数据不全且无法获得全部数据。
2. 气脉数据可以获得全部应用的数据。
* 数据匹配
### 训练文本分类模型
BERT和XLNet
多个模型使用概率加权平均的方式进行模型融合
### 规则匹配

使用道具 举报 回复
133****2471 发表于 2020-7-19 23:41:08
22#
day6
01数据类型:
类别多,逻辑回归不好,使用决策树模型
02数据探索:
先做链接,xgboost再做链接,可解释性更好
03特征工程
统计特征
类别特征的 count
交叉类别 count
通过某一类id使用多种设备 Unique
找出刷机“欺诈”行为
04未来展望
构建多重”UID
关注点不仅仅聚焦在呈现的一个用户的行为,可以聚焦用户群相互之间的特征标签做广告反欺诈
增加祥本数据
提高高质量的训练集容量,增加样本量可以防止过拟合,可以使模型的泛化能力更强
丰富用户标签
用户标签越丰富,获得用户信息并区分用户行为的辨识度也相应的越高
尝试多种模型
不同模型带来的效益不一样,而融合也往往能带来不错的效果
使用道具 举报 回复
匿名  发表于 2020-7-20 23:23:53
23#
day7
二分类
题目描述
使用媒体信息(包名,app版本,对外广告位ID,对外媒体ID,app所属分类),IP信息(P地址,城市,省份),设备信息( DroidD,imei, idfa, openid,mac,设备类型,机型,厂商,网络类型,运营商,操作系统,操作系统版本,横竖屏,语言,设备高,设备宽,屏幕密度预测设备是否作弊
特别之处(猜测)
package, adunitshowid, mediashowid,为大赛官方脱敏加密处理。 added5, meima5, idfamd5, openudidmd5,macd5,为广告行业API常用标准用法
因为广告投放过程中,广告主、媒体之间需要通过设备信息匹配数据,所以必须使用公开、一致的hash方法,通常使用直接将原始值(转大写)计算MD5.

** 逆向IMEI
价值探讨关MEI的小讨论
如何客观评价:
从比赛方案角度看,我们用了一个通用性很差的 trick
从实际应用角度看,这是价值很高又非常好用的发现
如何理解MEI的使用在生产环境的价值?
除了M,任何容易被穷举的数据(比如手机号、身份证号),在双方进行数据核对中,“公开”方法的加密,并不能对单一方的数据加以保护。同时,广告数据通常需要广告主、平台、媒体之间互通,所以加密方法又必须简易且“公开
理论上是否有办法保留MI隐私性?1、校验策略升级(难以实施)
A、B约定私钥,生成数据序列 List a, list b
A、B分别将ista, list b,发送给第三方服务C由C匹配返回重合部分 -list ab,分别返回给A、B
2、替换校验值(需要时间)
2019年 Android Q正式发布之后,预计未来2-3年以后,imei将越来越难获取到,用软件d替换。

** 建立特征 不包含在其他特征中

使用道具 回复
133****2471 发表于 2020-7-20 23:24:35
24#
day7 腾讯广告大赛
二分类
题目描述
使用媒体信息(包名,app版本,对外广告位ID,对外媒体ID,app所属分类),IP信息(P地址,城市,省份),设备信息( DroidD,imei, idfa, openid,mac,设备类型,机型,厂商,网络类型,运营商,操作系统,操作系统版本,横竖屏,语言,设备高,设备宽,屏幕密度预测设备是否作弊
特别之处(猜测)
package, adunitshowid, mediashowid,为大赛官方脱敏加密处理。 added5, meima5, idfamd5, openudidmd5,macd5,为广告行业API常用标准用法
因为广告投放过程中,广告主、媒体之间需要通过设备信息匹配数据,所以必须使用公开、一致的hash方法,通常使用直接将原始值(转大写)计算MD5.

** 逆向IMEI
价值探讨关MEI的小讨论
如何客观评价:
从比赛方案角度看,我们用了一个通用性很差的 trick
从实际应用角度看,这是价值很高又非常好用的发现
如何理解MEI的使用在生产环境的价值?
除了M,任何容易被穷举的数据(比如手机号、身份证号),在双方进行数据核对中,“公开”方法的加密,并不能对单一方的数据加以保护。同时,广告数据通常需要广告主、平台、媒体之间互通,所以加密方法又必须简易且“公开
理论上是否有办法保留MI隐私性?1、校验策略升级(难以实施)
A、B约定私钥,生成数据序列 List a, list b
A、B分别将ista, list b,发送给第三方服务C由C匹配返回重合部分 -list ab,分别返回给A、B
2、替换校验值(需要时间)
2019年 Android Q正式发布之后,预计未来2-3年以后,imei将越来越难获取到,用软件d替换。

** 建立特征 不包含在其他特征中

使用道具 举报 回复
133****2471 发表于 2020-7-21 17:37:21
25#
day8
# 阿尔兹海默solo冠军吴邵武
选择样本量少的分类优先进行召回
语音问题把NLP做透
solo亚军续育茹
语义处理川EBA词向量

# 应用分类
solo冠军林金镇
爬取一个聚合网站包含全部市场信息
两个搜索引擎互补
亚军 Mindrank
bert,lstm融合


# 工程机寿命
冠军陈晨、胡嗣林、周杰
数据划分
定位工作时长和剩余时长的矛盾
删除异常数据,平滑突变数据
时序特征

# 广告反作弊
冠军:流体互动团队
imei逆向,截取
亚军:油菜花一朵非常年轻的学生团队
季军:兔哥、杰少
特征工程




## 学习方法
优秀的软件工程师的特点
优秀的软件工程师,如果通过恰当的学习方法,和有效的反馈机制
有机会(较容易)在几个月之内,成功转行成为优秀的A시工程师(工业实践者算法改进者)

基本的理工素质,扎实的編程基本功,相信对自己的控制力

相信事物是不断变化的,热衷于学习新事物,良好的学习方法

科学的做事方法,重视目标、 benchmark,反馈周期

严谨的逻辑思维,深度的思考习惯


## AI工程师需要哪些技能
了解概念:机器学习理论:监督学习、无临督学习,训练验证、测试,LR,神经网络,决策树
必备基础:概率论和数理统计:正态分布,条件概率,P值,科学实验
                 数据结枃与算法
认真学习:特征工程:特征分析,特征编码 (不好迁移)
现用现学即可:语言和工具:Python, numpy, pandas,xgboost, sklearn

经验必备积累:研发架构能力:研发功底,代码结构,性能稳定性,数据架构


## 自学最佳路径
观其大略,不求甚解: 了解人工智能基本概念大道至简,感性理解
找到应用场景和目标:可以是工作中应用、比赛优质的数据集等等
学习最合适的,并且成熟度高、封装度高的代码库的上层 OPEN API,demo掌握基本的使用方法
用最快的速度将模型付诸实践,建立高效的benchmark反馈方式不断尝试送代、改进,从反馈中提升认知
在实践认知的积累基础上学习底层理论,大牛的精辟总结顿悟并握精髓

## 学习方法总结
先实践后理论
使得学习是一个非常快乐和有成就感的过程
客观评价,追求卓越
防止自己误入歧途通过比赛、经典数据集合等。随时检查自己的效果进度和高手切磋,向高手学习
找到组织和小伙伴
找到一群志同道合的朋友,相似的方法论,执行效率和同样年轻积极的心态,以及不放弃改变世界的理想
使用道具 举报 回复
133****2471 发表于 2020-7-22 23:46:44
26#
#Day9+学习笔记+07/22深度学习基础
1. 人工智能的定义
机器通过对大量数据的学习而掌握合理解决问题的技能,具有的举一反三的能力
2. 人工智能的市场应用
人工智能是新的电能
3. AI产生的全新商业模式
  • **链管理
  • 精准营销
  • 组织架构
  • 产品生产

4. 任何学习人工智能、深度学习
  • 编程 python
  • 数学
  • 学习路线:基础篇、入门篇、应用篇


使用道具 举报 回复
133****2471 发表于 2020-7-23 22:24:05
27#
#day10+学习笔记+07/23
为什么是Python?
Python执行效率不如C++,但在模型搭建和算法实践上能省下不少时间,所以总体效率远高于C++,且Python拥有大量的第三方库。

                 编译型语言:将高级语言代码一次性的编译成可被该平台硬件执行的机器码。
                 解释性语言:使用专门解译器对源程序逐行解释成特定平台的机器码并立即执行。

特点:
        1、简单。
         2、高效。
          3、主流机器学习、深度学习框架都提供Python接口。

使用道具 举报 回复
133****2471 发表于 2020-7-24 13:26:08
28#
#Day11+学习笔记+ 07/24
1.pytorch特点:简洁、速度、易用、易调试
2. 安装测试
condainstall Pytorch-cpu torchvision-cpu -c Pytorch
importtorch
x=torch.rand(5,3)
print(x)
3. 数据预处理工具torchvision:Torchvision是一个图像操作工具库
  • 数据处理
  • 数据导入
  • 数据预览
4. 安装torchvision
  • Anaconda:condainstall torchvison -c pytorch
  • pip: pipinstall torchvision
5. torchvision主要包括以下三个部分
  • 模型models
  • 数据集datasets
  • 数据预处理操作transforms
6. transforms可以解决:数据类型转换与增强
  • 标准化:transforms.Normalize
  • 转为tensor,并归一化至[0-1]transforms.ToTensor
  • 将数据转换为PILImagetransforms.ToPILImage
  • 对载入的图片数据大小进行缩放:transforms.Resize
  • 对载入的图片进行裁剪:transforms.CenterCrop

使用道具 举报 回复
133****2471 发表于 2020-7-25 13:06:37
29#
Day 11+学习笔记+ 07/25
1.     损失函数
  • L1损失函数(平均绝对误差函数,MAEnn.L1Loss( )
  • 均方误差函数(MeanSquare ErrorMSEnn.MSELoss( )
  • 交叉熵损失nn.CrossEntropyLoss()        nn.LogSoftmax()+nn.NLLLoss()
2.     Pytorch优化器              Torch.optim
3.     常用优化器
  • SGD:随机梯度下降      torch.optim.SGD(params, lr, momentum,dampening, weight_decay, nesterov)
  • Adagrad:自动变更学习速率      torch.optim.Adagrad(params, lr, lr_decay,weight_decay, initial_accumulator_value)
  • RMSprop:对Adagrad的一种改进     torch.optim.RMSprop(params, lr, alpha,eps, weight_decay, momentum, centered)
  • Adam:默认的优化算法          torch.optim.Adam(params, lr, betas,eps, weight_decay, amsgrad)


使用道具 举报 回复
133****2471 发表于 2020-7-26 10:16:33
30#
Day 12+学习笔记+ 07/26
1.     生物神经网络
  • 树突:信息输入端
  • 轴突:信息输出端
  • 突触:本神经元和外部神经元之间的接口
2.     神经网络sgn(x)→ sigmoid(x)
3.     深度学习
  • 新模型:CNN、LSTM、ResNet
  • 新算法:权重初始化、新优化算法、防止过拟合
4. 深度学习风靡的原因:
  • 大数据与分布式存储
  • GPU并行计算
  • 算法的改进:更好的神经层激活函数;更好的权重初始化方案;更好的优化方案
5.     神经网络工作原理
  • 目标:找到正确的权重
  • 评价指标:损失函数
  • 方法:优化算法+方向传播算法

使用道具 举报 回复