帖子

《A.I.开发者大赛专题学习》学习笔记分享园地 | 讯飞AI大学

  [复制链接]
133****2471 发表于 2020-8-4 23:10:32
41#
本帖最后由 133****2471 于 2020-8-4 23:11 编辑

# Day14 学习笔记 08/04

提取MFCC:librosa.feature.mfcc(wave, sr = 8000)
超参数提分点

提取特征矩阵
划分测试集
定义模型

## 如何改进?
基础数据扩疒增:对原始音频做,对输入MFCC做;
最原始音频进行随机时间选取. 15-5-5-5
对MFCC矩阵做数据扩增。

高阶数据扩增:对音频MFCC做 Mixup
我waw.png
既有类别一又有类别二
ont_hot两0.5
损失MSE
交叉熵MIxup
数据MIxup
使用道具 举报 回复
133****2471 发表于 2020-8-7 23:26:15
42#
本帖最后由 133****2471 于 2020-8-8 16:45 编辑

# Day15 学习笔记 08/07
时间序列预测是指按照时间顺序观察事物的变換。通常会利用同一变量的历史值预测未来值,或者也可以加入一些预测因子来预测未来值。前者称为单变量时间序列预测,后者称为多变量时间序列预测。
通常我们指的时间序列预测都是考虑定期观察的时间序列(如每分、每小时、每天、每周等)。比较经典的案例有:降水量预测、销售预测、流量预测等。

#时序预测方法:
## 基本规则
均值法、季节性均值法、朴素法、季节性朴素法、漂移法、周期因子法等
## 传统模型
AR、MA、ARMA、 ARIMA等;
## 时间序列分解
Prophet等;
## 机器学习
Boost、 Lightgbm等;
##深度学习
LSTM、Seq2Seq、 Transformer等;


### 基本规则(周期因子法)
1.除以周均值得到比值;
2.按列取中位数得到周期因子;
3.用周期因子乘以base得到下周预测。


### 传统模型
132.png
ARMA减小参数

### 时间序列分解( Prophet):
将序列分解为趋势、季节性、节假日和残差



### 机器学习( xgBoost)
构造时序历史特征,将时序问题转換为回归问题(两者核心区别在于假设数据相关或者独立)
### 深度学习(LSTM)
利用基于 RNN/Attention等深度学习结构进行预测。



使用道具 举报 回复
153****8260 发表于 2020-8-7 23:44:48
43#
# Day8  2020年8月7日
# 主题:婴儿啼哭挑战赛
# 中等,语音识别、分类
## 赛题任务:
### 初复赛内容
* 初赛:每类啼哭声值包涵两条音频数据
* 复赛:有噪音干扰,影响模型判断
### 数据方面
* 训练数据集包含6类,已人工添加噪声
* 初赛只有228条训练数据,还是比较有难度的。

## 赛题剖析与baseline
### 赛题难点
* 非结构数据,不熟悉
* 赛题数据少,难训练
### 赛题思路
* 找到赛题本质,是一个语音分类问题
* 找到解决思路,找语音分类的代码
### 如何提取噪声
* MFCC
* 时间轴,频率,强度,提取到2维矩阵
### baseline思路
MFCC+CNN分类,线上0.39左右分数

使用道具 举报 回复
133****2471 发表于 2020-8-8 16:46:02
44#
本帖最后由 133****2471 于 2020-8-8 16:47 编辑

# Day16学习笔记 08/08
# 特征工程常见操作
## 数据清洗:提高数据质量,降低算法用错误数据建模的风险
1.特征变换:模型无法处理或不适合处理
a)定性变量编码: Label Encoder; Onehot Encoder; Distribution coding;
b)标准化和归ー化:分数标准化(标准正态分布)、min-max归ー化;
2.缺失值处理:滅少不确定性和不可靠输出
a)不处理:少量样本缺失;
b)删除:大量样本缺失;
c)补全:(同类)均值/中位数众数补全;高维映射(One-hot);模型预测;最邻近向后向前补全;矩阵补全(R-SVD);
3.异常值处理:减少脏数据
a)简单统计:如 describe()的统计描述;散点图等
b)3a法则(正态分布)/箱型图截断;
c)利用模型进行离群点检测:聚类、K近邻、 One Class SVM、 Isolation Forest;
4.其他:删除无效列/更改 dtypes/删除列中的字符串/将时间戳从字符串转换为日期时间格式等


## 特征构造:增强数据表达,添加先验知识
1.统计量特征
a)四分位数、中位数、平均数、标准差、偏差、偏度、峰度、离散系数等;
b)构造长短期统计量;
c)考虑时间衰滅。
2.周期值:
a)前n个周期/天/月/年的同期值
b)同比/环比;
3.数据分桶
a)等频/等距分桶、 Best-ks分桶、卡方分桶
4.特征组合(先用强特征)
a)类别特征和类别特征:笛卡尔积
b)类別特征和连续特征:连续特征分桶后进行笛卡尔积,或者基于类别特征进行 groupby操作,
类似聚合特征的构造;
c)连续特征和连续特征:加減乘除,或者二阶差分等

##特征选择:降低噪声,平滑预测能力和计算复杂度,增强模型预测性能
1.过滤式( Filter):先用特征选择方法对初识特征进行过滤,然后再训练学习器,特征选择过程与后续学习器无关。
a)方差选择/相关系数/卡方检验/互信息法
2.包裏式( Wrapper):直接把最终将要使用的学习器的性能作为衡量特征子集的评价准则,其目的在于给定学习器选择最有利于其性能的特征子集。
a)Recursive Feature Elimination(RFE)b)Las Vegas Wrapper(LVM)c)单特征建模模型
3.嵌入式( Embedding):结合过滤式和包裏式方法,将特征选择与学习器训练过程融为一体,两者在同一优化过程中完成,即学习器训练过程中自动进行了特征选择。
a)LR L1或決策树
使用道具 举报 回复
153****8260 发表于 2020-8-8 16:49:16
45#
# Day9 学习笔记 2020年8月8日
# 主题:特征工程的方法与技巧
## 一、时序预测任务
### 基本知识
* 本次大赛为多变量时间预测
* 案例:降水量预测,销售预测,流量预测
### 时序预测方法
* 基本规则
1. 均值法:同一时间段内有不同的值
2. 季节性均值法:预测特定时间的数据可以根据该时间的历史数据
3. 朴素法:根据末尾数据
4. 季节性朴素法:相比朴素法考虑了周期性
5. 漂移法:玄学的方法,预测数据结构在开头数据的末尾数据连线的延线上
6. 周期性因子法
三周每周算出平均值,每周的7个数据除该值,取中位数,作为预测性的周期性因子base取100,100乘以每个中位数,作为下周的预测
第三周的中位数作为周期性因子,100乘以周期性因子作为预测量
改进:考虑周五周六周日的值,因为这三个离我们的比较近
* 传统模型
AR、MA、ARMA、ARIMA
* 时间序列分解
Prophet等
* 机器学习
Xgboost、LightGBM等
* 深度学习
LSTM、Seq2Seq、Transformer等
## 二、特征工程常见操作
---
数据和特征决定魔性的上届,模型只是逼近这个上街
---
### 数据清洗
* 提高数据质量,错误数据
* 缺失值处理
* 异常值处理,减少脏数据
### 特征构造
* 统计量特征
比如考虑时间衰减
* 周期值
* 数据分桶
* 特征组合
### 特征选择
::降低噪声::
* 过滤式
* 包裹式
* 嵌入式
使用道具 举报 回复
153****8260 发表于 2020-8-9 21:44:22
46#
# Day10学习笔记 2020年8月9日
# 主题:事件抽取
## NLP入门
* 文本是日常中最常见的非结构化的数据
---
*非结构化数据*
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。
计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业 ERP 、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。
基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。
---
### NLP典型应用
垃圾邮件,智能机器人,语音识别,机器翻译
### NLP两种实现方法
* 传统机器学习:预处理,特征工程[特征工程](https://www.jianshu.com/p/b718547e4c72),模型
* 深度学习:预处理,模型
## 赛事介绍
## 赛题剖析与baseline
*什么是baseline?*
[Baseline](https://blog.csdn.net/Lison_Zhu/article/details/97554928)
baseline一词应该指的是对照组,基准线,就是你这个实验有提升,那么你的提升是对比于什么的提升,被对比的就是baseline。
比如你要研究一个新的模型,你是在前人的模型基础上新增加了一些组件,别人也基本都是在这个模型上进行修改,那这个模型就叫做baseline model——基准模型。听名字就能听出来,就是你自己模型的一个基准,一个基本的框架,模型再复杂,最根本的框架是差不多的。
---
## GPU硬件配置


使用道具 举报 回复
153****8260 发表于 2020-8-10 14:22:53
47#
# Day11 学习笔记
# 语音听写(汪舰)
## 语音听写应用场景
* 语音售票机
* 机器人语音交互,*先识别出来再判断意思*
## 语音识别接口
---
区分同步和异步
---
## 识别模型
声学模型,语言模型
## 个兴化热词]
## 动态修正
意义:颗粒度更细,识别引擎反应更迅速,识别一句话,分多次给我,而非动态修正一次返还,中间不返还。
## 流式识别
## 语音听写接口支持情况
## 接口调用过程安卓
五步


使用道具 举报 回复
133****2471 发表于 2020-8-10 15:13:44
48#
# Day17学习笔记 08/10

鱼佬的 Baseline
1.基本聚合特征
2.基本交叉特征;
3.历史信息提取;
4.特征离散化;
5.模型融合
6.线上分数1.4.

上分
1.添加统计量特征;
2.添加更多聚台特征;
3.添加同期值和环比值
4.修改异常值(不修改可能会增加模型泛化能力);
5.采用单模型 Boost,并将tree_ method修改为gpu hist增加模型泛化能力和训练速度
6.调整模型参数,并把eval_ metric修改为rmse
7.突破1.0.

可以尝试
1.挖掘更多的统计量特征;
2.利用简单模型或规则构造特征;
3.特征筛选(目前模型过拟合);
4.多模型融合;

使用道具 举报 回复
Supriya孙英 发表于 2020-8-10 23:00:20
49#
#Day01+学习笔记+08/10
Day01.png
使用道具 举报 回复
133****2471 发表于 2020-8-11 23:08:12
50#
# Day18学习笔记 08/11
111.png 12.png
13.png
语音听写产品特性一动态修正
粒度更细,用户体验更佳


使用道具 举报 回复