帖子

《A.I.开发者大赛专题学习》学习笔记分享园地 | 讯飞AI大学

[复制链接]
153****8260 发表于 2020-7-26 22:47:49
31#
# Day6 学习笔记 深度学习基础
# No.5 python变量 2020年7月26日 下午9:19
## 前言: 编程的本质是数据流的控制,因此首先必须解决数据的解决和装载问题变量
### 主题:变量与容器
1. 变量
---
变量将编程语言和计算器区分开来,有了变量,编程语言将无所不能
---
* 变量的命名规则:有讲究@——@
1.不要使用关键字和函数名命名。
2.不要简短,要有描述性。
3.慎用小写字母l和大写字母O,容易和数字1和0混淆。
变量名参考网站:http://unbutton.github.io/codelf
* 字符串处理
1.大小写,首字母大写,每个字母大写。
2.format,什么都不加,加位置0,1,2,以及加参数等。
* 数字
整型和浮点数,整型比较精确,不需要小数的时候就用int,反之用float
* 数字格式化
* 布尔型
变量:True和False
操作符:
符号类型操作符:==,!=;
英语操作符:and,or,not

使用道具 举报 回复
153****8260 发表于 2020-7-27 15:52:10
32#
# Day6学习笔记 2020年7月27日
## 科大讯飞AI开发者大赛内容分享part1
## 赛事介绍 赛程安排 赛题介绍 比赛baseline
### 赛事介绍
赛事奖励:百万奖金,比赛证书,就业通道&讯飞offer
### 赛程安排
初赛,复赛,决赛
### 赛提介绍
* 算法赛
总体难度整体偏上。
温度预测入门到中等,数据挖掘,结构化数据挖掘。
:小样本预测准确度,有挑战性。
* 应用赛
* 公益赛
* 辩论赛
### 数据预处理
缺失,温度湿度气压等,可以填充:历史同一时刻,最近时刻,历史均值,对于树模型也可不进行填充。

使用道具 举报 回复
133****2471 发表于 2020-7-27 17:42:46
33#
#Day9学习笔记2020年7月27日
注意事项
√赛事会有初赛和复赛,初赛前20%进入复赛,因此希望大家尽早报名提交
初赛和复赛赛题任务一致,但赛题数据可能存在变化

A。算法赛
A。应用赛-考察参赛选手快速应用开发能力
A。公益赛-A.I公益赛赛道以智能辅具为方向,在AI。公益赛道上细分软件、硬件辅具赛道。
A。辩论



赛题名称:视频广告场识别桃战寨
赛题任务:视频结构化俗称视频“打标签”,即通过智能分析算法,在原始视频中提取出关键信息,包括商品商标、视频场景、特定人行为的识别判断等等
赛题难度:中等偏上,物体检测任务
赛题类型:计算机视觉;

赛题名称:语种识别挑战
赛题任务:语种识别挑战赛冒在增强多语种语言识别技术
赛题难度:中等偏上,语种识别
赛题类型:语音;

赛题名称:自然场景文字检测挑战赛
赛题任务:本次大赛提供的数据为讯飞翻译机采集的真实数据,语种包含中文和英文,样例及相应标注如图1
图2所示。其中训练集5000张,验证集1000张,测试集1000张。参赛者需基于提供的数据构建模型,标注出图
像中文字所在的位置
赛题难度:较难,OCR字符检测
赛题类型:计算机视觉

赛题名称:X光安检图像识别桃战暴
赛题任务:对X光安检图像中的违禁品进行检测和分类;
赛题难度:中等偏上,物体检测;
褰题类型:计算机视党;

赛题名称:多语种文本挖掘挑战寨算法挑战大赛
赛题任务:加强语种翻译硏究的交流、促进多语种机器翻译技术的发展
赛题难度:较高,文本翻译
赛题类型:自然语言处理

赛题名称:脑PT图像分析和疾病预测桃战寨
赛题任务:根据提供的样本构建模型,对阿尔茨海默综合症进行分析和预测
赛题难度:中等,图像分类
赛题类型:计算机视觉

赛题名称:婴儿啼哭声识别挑战寨
赛题任务:判别儿啼哭声所传递的信息,对哭声进行分类
赛题难度:中等,语音识别
赛题类型:语音;

赛题名称:温室温度测桃战寨
赛题任务:基于提供的样本构建模型,预测温室温度变化情况。
赛题难度:入门至中等,数据挖掘;
赛题类型:结构化数据挖掘

赛题名称:农业问答数据外理桃战赛
赛题任务:基于提供的样本构建模型,对问答数据进行标记切词
赛题难度:中等偏上,实体识别
赛题类型:自然语言处理;

赛题名称:多模情感分析与识别桃战暴
赛题任务:利用信号分析、机器学习、模式识别、数据挖掘等方法,找出情感分析与判定的关键多模
态要素,探索自动情感识别方法、情感识别与判定可信度评估方法等。
赛题难度:中等偏上,多模态;
赛题类型:结构化+计算机视觉;

赛题名称:事件抽取挑战寨
赛题任务:从通用新闻文本中抽取事件触发词、事件论元以及事件属性。
赛题难度:中等偏上,事件抽取
赛题类型:自然语言处理;

使用道具 举报 回复
152****8001 发表于 2020-7-28 16:26:38
34#
#Day 6+学习笔记+07/28
## 温室温度预测挑战赛

### 赛题分析

任务是基于提供的样本构建模型,预测温室温度变化

### 题解过程

#### 1. 数据分析与处理

##### 数据预处理

对缺失值进行操作,比如使用历史数据进行填充、直接删去等等

##### 特征提取

基础特征:

- 按照时间进行聚合
- 数值特征交叉统计
- 离散化处理(分桶、二值化)

时间特征

#### 2. 建模过程

##### 模型选择

使用 LightGBM 模型
小数据比赛,调参、验证集选择对结果有影响。

##### 模型融合

训练过程融合 Baging + Boosting
训练结果融合 投票法 + 平均法 + Stacking

使用道具 举报 回复
133****2471 发表于 2020-7-28 18:12:58
35#
#Day 10+学习笔记+07/28
赛题名称:温室温度硕测挑战寨
比赛为参赛选手提供了温室内外的部分传感器数据,包括温室内的温度、湿度、气压以及温室外的温
度、湿度、气压。

利用关系,相关性


· 时间序列,根据历史预测,

缺失值:可以选择使用历史数据进行填充,可以时历史同一时刻、最近时刻、历史均值等,对于树模型也可不进行填充。


# 特征提取
## 基础特征


按时间进行聚合统计
数值特征交叉统计
离散化处理(分桶、二值化)

## 时间特征
日期变量(年、月、周、日小时、分钟)
距离某天的时间差,是否某个特殊日期,时间组合
时序相关特征(历史平移,滑窗统计)
周期性,趋势性,强相关,异常点


# 问题建模-线下验正
时序验证             训练集(历史数据)验证集(历史数据)测试集(新数据)

12.png

使用道具 举报 回复
153****8260 发表于 2020-7-28 22:55:04
36#
# Day7学习笔记 2020年7月28日
## 科大讯飞AI开发者大赛内容分享part2
### 2.特征提取
* 按时间进行聚合
时间特征:日期变量;距离某天的时间差,是否某个特殊日期,时间组合;时序相关特征(历史平移,滑窗统计)。时间特征可以表现为周期性,趋势性,强相关,异常点。传感器有异常值,可以当成缺失值处理。
* 数值特征交叉统计
* 离散化处理:分桶、二值化。
### 问题建模-线下验证
* 不能用未来验证当下或者过去不合理。
* 多提取极端测试机区间多验证一次,可能更加稳定
训练集(历史数据) 验证机(当前数据)测试机(未来数据)
### 问题建模-目标变化
相减或者比值,或者将室外温度开根号
### 模型融合
用多个模型结果精确,不同模型试一试,尝试一下
使用道具 举报 回复
133****2471 发表于 2020-7-29 23:31:00
37#
#Day11+学习笔记+07/29
##思路:
初赛赛题可以直接视为一个图像二分类问题,直接可以使用CNN+ Finetune解決;
选择预训练模型;
训练与预

## 初赛细节
预训练模型并不是越大越好,需要与赛题数据量契合( Resnet18和 Resnet34足够)
数据扩增会带来一定的随机性,建议不要加入裁剪,或者先进行边缘检测再进行裁剪
同类别的数据有很多相似图片(同个病人的切片),导致本地验证集得分不可靠

使用道具 举报 回复
133****2471 发表于 2020-7-30 20:02:16
38#
day12学习笔记7/30
赛题名称事件抽取挑战
赛题任务:从通用新闻文本中抽取事件触发词、事件论元以及事件属性
√任务一:事件触发词及论元抽取
本赛事任务一为初赛任务,任务二为复赛任务:
√任务二:事件属性抽取
该任务旨在从文本中抽取表达事件发生状态的属性,包括极性、时态。极性分为:肯定、否定、可能;时态分
为:过去、现在、将来、其他。
sa阿萨.png



使用道具 举报 回复
李小狼 发表于 2020-7-31 11:46:40
39#
#Day 2+学习笔记+07/31
## 移动广告算法挑战赛季军团队


# 模型选择:Catboost
类别信息较多,如果做onehot特征多,xgb效果不好


# 数据背景
基本数据:基本信息
媒体信息:包名(MD5加密)、对外广告位、对外媒体ID、app所属分类
IP信息:城市、省份、请求的http协议头携带IP
设备信息:MD5值


# 数据探索
相关性图
数据预处理
广告欺诈团伙化地域化的数据探索

# 特征工程
原有类别特征
欺诈率特征
统计特征

# 特征重要性




使用道具 举报 回复
133****2471 发表于 6 天前
40#
本帖最后由 133****2471 于 2020-8-3 22:34 编辑

#Day 13+学习笔记+08/03

赛题名称:婴儿啼哭声识别挑战
赛题任务:判别婴儿啼哭声所传递的信息,对哭声进行分类
赛题难度:中等,语音识别;
赛题类型:语音。

赛题任务:婴儿啼哭声识别挑战赛旨在判别儿啼哭声所传递的信息,本次挑战赛设置了更具挑战性的任务,相比其他竞寨,本次竟赛所提供的训练数据更少总体为低资源的竞赛任务,具体包含:
初赛:训练数据集毎类啼哭声只包含两条音频数据,简单噪声环境下识别
复赛:复杂噪声环境下婴儿啼哭声识别,判断容易引起泥淆的啼哭声,分析各类啼哭声的明显特征及简单直接的判別方式。

1.训练数据集包含六类哭声,已人工添加噪声
A: awake(苏醒)
B: diaper(换尿布)
C:hug(要抱抱)
D: hungry(饥饿)
E: sleepy(困乏)
F: uncomfortable(不舒服
2.噪声数据来源 Noisex-92标准数据库。
3.初赛测试集包含228条音频数据,复赛将提供更大更复杂的测试数据

赛题难点:
非结构数据,不熟悉;
赛题数据较少,难训练
赛题思路:
1.找到赛题本质,是个语音分类问题;
2.找到解决思路,找语音分类的代码

MFCC系数,全称" Mel Frequency Cepstrum Coefficient”,音译为:梅尔频率倒谱系数,是模仿人类听觉特性而提取的特征参数,主要用于特征提取和降维处理。可以将高维度的数据压缩到低维,从而起到减小计算量以及过滤噪声的目的

网络结构

网络结构



使用道具 举报 回复