[read]特征工程入门与实践

=Start=

缘由：

在讨论的时候听到同事提到「特征工程」这个词，比较感兴趣，所以借了一本书学习一下什么是特征工程，以及它能起到什么作用、达到什么效果。

正文：

参考解答：

Understand → Enforce → Build → Choose → Transform → Self-Learning

特征理解：拿到的是结构化or非结构化数据？是定量数据or定性数据？每列数据处于什么等级？可以用什么图表进行可视化描述以增进对该数据的理解？
特征增强：如何识别和处理数据中的缺失值？如何处理数据和特征？特征增强的意义在于——识别有问题的数据区域，并确定哪种修复方法最有效。学会用数据科学家的眼光来看数据。
特征构建：主要目的在于——使用现有特征构建全新特征，让模型从中学习。
特征选择：特征选择是从原始数据中选择对于预测流水线而言最好的特征的过程。即，特征选择尝试剔除数据中的噪声。
特征转换：使用一套改变数据内部结构的算法（比如：PCA/LDA等），以产生数学上更优的超级列（super-column）。它想用更少的列来解释数据，并且效果不变，甚至更好。
特征学习：以全新的视角看待数据（不对输入数据的特性有所假设），从而揭示新的问题，并予以解决。

特征工程是什么？

特征工程是数据科学和机器学习流水线上的重要一环，包括识别、清洗、构建和发掘数据的特征，为进一步解释数据并进行预测性分析做准备。

特征工程（feature engineering）是这样一个过程：将数据转换为能更好地表示潜在问题的特征，从而提高机器学习性能。即，将「数据」→「有效特征」。

特征工程具体包含什么？

转换数据的过程：注意这里并不特指原始数据或未过滤的数据，等等。特征工程适用于任何阶段的数据。通常，我们要将特征工程技术应用于在数据分发者眼中已经处理过的数据。还有很重要的一点是，我们要处理的数据经常是表格形式的。数据会被组织成行（观察值-observation）和列（属性）。有时我们从最原始的数据形式开始入手，例如之前服务器日志的例子，但是大部分时间，要处理的数据都已经在一定程度上被清洗和组织过了。
特征：显而易见，这个词在本书中会很常用。从最基本的层面来说，特征是对机器学习过程有意义的数据属性。我们经常需要查看表格，确定哪些列是特征，哪些只是普通的属性。
更好地表示潜在问题：我们要使用的数据一定代表了某个领域的某个问题。我们要保证，在处理数据时，不能一叶障目不见泰山。转换数据的目的是要更好地表达更大的问题。
提高机器学习性能：特征工程是数据科学流程的一部分。如我们所见，这个步骤很重要，而且经常被低估。特征工程的最终目的是让我们获取更好的数据，以便学习算法从中挖掘模式，取得更好的效果。本书稍后将详细讨论机器学习的指标和效果，但是现在我们要知道的是，执行特征工程不仅是要获得更干净的数据，而且最终要在机器学习流水线中使用这些数据。（有几个重要的指标：拟合/训练时间、预测时间、准确率）

机器学习的简单分类

大体上，我们把机器学习分为两类：监督学习和无监督学习。两种算法都可以从特征工程中获益，所以了解每种类型非常重要。

监督学习（也叫预测分析）在监督学习中，我们一般将数据集中希望预测的属性（一般只有一个，但也不尽然）叫作响应（response），其余属性叫作特征（feature）。一般而言，可以将监督学习分为两种更具体的类型：分类（预测定性响应）和回归（预测定量响应）。
无监督学习监督学习的目的是预测。我们利用数据的特征对响应进行预测，提供有用的信息。如果不是要通过探索结构进行预测，那就是想从数据中提取结构。要做到后者，一般对数据的数值矩阵或迭代过程应用数学变换，提取新的特征。聚类——将数据按特征行为进行分类，属于无监督学习的一个特殊类别。

特征工程的评估步骤

以下是评估特征工程的步骤：

(1) 在应用任何特征工程之前，先得到机器学习模型的基准性能；

(2) 应用一种或多种特征工程；

(3) 然后对于每种特征工程，获取一个性能指标，并与基准性能进行对比；

(4) 如果性能的增量（变化）大于某个阈值（一般由我们定义），则认为这种特征工程是有益的，并在机器学习流水线上应用；

(5) 性能的改变一般以百分比计算（如果基准性能从40%的准确率提升到76%的准确率，那么改变是90%）。

性能的定义随算法不同而改变。大部分优秀的主流机器学习算法会告诉你，在数据科学的实践中有数十种公认的指标。

大体上，我们会在3个领域内对特征工程的好处进行量化。

监督学习：也叫预测分析
- 回归——预测定量数据
  - 主要使用均方误差（MSE，mean squared error）作为测量指标
- 分类——预测定性数据
  - 主要使用准确率作为测量指标
无监督学习：聚类——将数据按特征行为进行分类
- 主要用轮廓系数（silhouette coefficient，这是一个表示聚类分离性的变量，在-1和1之间）作为测量指标
统计检验：用相关系数、检验、卡方检验，以及其他方法评估并量化原始数据和转换后数据的效果

特征工程的几个主要方面

特征理解：学习如何识别定量数据和定性数据。
特征增强：清洗和填充缺失值，最大化数据集的价值。
特征选择：通过统计方法选择一部分特征，以减少数据噪声。
特征构建：构建新的特征，探索特征间的联系。
特征转换：提取数据中的隐藏结构，用数学方法转换数据集、增强效果。
特征学习：利用深度学习的力量，以全新的视角看待数据，从而揭示新的问题，并予以解决。

第1章　特征工程简介

1.1　激动人心的例子：AI驱动的聊天
1.2　特征工程的重要性
1.3　特征工程是什么
1.4　机器学习算法和特征工程的评估
1.4.1　特征工程的例子：真的有人能预测天气吗
1.4.2　特征工程的评估步骤
1.4.3　评估监督学习算法
1.4.4　评估无监督学习算法
1.5　特征理解：我的数据集里有什么
1.6　特征增强：清洗数据
1.7　特征选择：对坏属性说不
1.8　特征构建：能生成新特征吗
1.9　特征转换：数学显神通
1.10　特征学习：以AI促AI
1.11　小结

第2章特征理解：我的数据集里有什么

2.1　数据结构的有无
2.2　定量数据和定性数据
2.3　数据的4个等级
2.3.1　定类等级
2.3.2　定序等级
2.3.3　定距等级
2.3.4　定比等级
2.4　数据等级总结
2.5　小结

第3章　特征增强：清洗数据

3.1　识别数据中的缺失值
3.1.1　皮马印第安人糖尿病预测数据集
3.1.2　探索性数据分析
3.2　处理数据集中的缺失值
3.2.1　删除有害的行
3.2.2　填充缺失值
3.2.3　在机器学习流水线中填充值
3.3　标准化和归一化
3.3.1　z分数标准化
3.3.2　min-max标准化
3.3.3　行归一化
3.3.4　整合起来
3.4　小结

第4章　特征构建：我能生成新特征吗

4.2　填充分类特征
4.2.1　自定义填充器
4.2.2　自定义分类填充器
4.2.3　自定义定量填充器
4.3　编码分类变量
4.3.1　定类等级的编码
4.3.2　定序等级的编码
4.3.3　将连续特征分箱
4.3.4　创建流水线
4.4　扩展数值特征
4.4.1　根据胸部加速度计识别动作的数据集
4.4.2　多项式特征
4.5　针对文本的特征构建
4.5.1　词袋法
4.5.2　CountVectorizer
4.5.3　TF-IDF向量化器
4.5.4　在机器学习流水线中使用文本
4.6　小结

第5章　特征选择：对坏属性说不

5.1　在特征工程中实现更好的性能
5.2　创建基准机器学习流水线
5.3　特征选择的类型
5.3.1　基于统计的特征选择
5.3.2　基于模型的特征选择
5.4　选用正确的特征选择方法
5.5　小结

第6章　特征转换：数学显神通

6.1　维度缩减：特征转换、特征选择与特征构建
6.2　主成分分析
6.2.1　PCA的工作原理
6.2.2　鸢尾花数据集的PCA——手动处理
6.2.3　scikit-learn的PCA
6.2.4　中心化和缩放对PCA的影响
6.3　线性判别分析
6.3.1　LDA的工作原理
6.3.2　在scikit-learn中使用LDA
6.4　LDA与PCA：使用鸢尾花数据集
6.5　小结

第7章　特征学习：以AI促AI

7.1　数据的参数假设
7.1.1　非参数谬误
7.1.2　本章的算法
7.2　受限玻尔兹曼机
7.2.1　不一定降维
7.2.2　受限玻尔兹曼机的图
7.2.3　玻尔兹曼机的限制
7.2.4　数据重建
7.2.5　MNIST数据集
7.3　伯努利受限玻尔兹曼机
7.3.1　从MNIST中提取PCA主成分
7.3.2　从MNIST中提取RBM特征
7.4.1　对原始像素值应用线性模型
7.4.3　对提取的RBM特征应用线性模型
7.5　学习文本特征：词向量
7.5.1　词嵌入
7.5.2　两种词嵌入方法：Word2vec和GloVe
7.5.3　Word2vec：另一个浅层神经网络
7.5.4　创建Word2vec词嵌入的gensim包
7.5.5　词嵌入的应用：信息检索
7.6　小结

第8章　案例分析

8.1　案例1：面部识别
8.1.1　面部识别的应用
8.1.2　数据
8.1.3　数据探索
8.1.4　应用面部识别
8.2　案例2：预测酒店评论数据的主题
8.2.1　文本聚类的应用
8.2.2　酒店评论数据
8.2.3　数据探索
8.2.4　聚类模型
8.2.5　SVD与PCA主成分
8.2.6　潜在语义分析
8.3　小结

参考链接：

=END=

22 6 月, 2019

Docker

KnowledgeBase, 机器学习

Book, FeatureEngineering, MachineLearning, PCA, reading, SVD, 机器学习, 特征工程