Feature Engineering Regularization

Feature Engineering

Word Embedding

特征表示是神经网络中十分重要的部分，一方面是需要对研究的对象进行参数化，另一方面参数化的数据背后又和对象本身有着某种重要的关联，否则无意义的参数化是无意义的。因此，特征工程是十分重要的。

2013年，word embedding横空出世，潜空间的定义让离散的单词token可以以潜空间的向量进行表示，而潜空间的每一维度又能赋予语义意义。这样一来，参数化与特征表达都同时实现了。在word embedding中，语义相似的单词，它们的潜空间向量越接近。其中，这样单词映射到潜空间向量的映射关系是通过非监督方式学习出来的。

上述的是语言，单词的特征工程，图片的特征工程要比它早一点，而这些工程技巧也被借鉴于NLP。如CNN以及Recursive autoencoder，它们都是尝试脱离单词的基本单元，而是进行某种意义上的string embedding。后续还有tree embedding等进阶的方法。

一开始，也是最直觉上想到的，是对每一个单词分配一个离散化的标签，也就是独热编码。这样的方法确实很直接地实现了参数化，但是并没有很好地进行特征的表达。于是有了后来的word embedding，通过给维度以语义信息的Inductive Bias（实际上没有先验式地分配维度语义信息，而是建模上引入了相关的归纳偏置），并且通过向量的内积来‘定义了’单词之间在潜空间上的关系。