1. Intro

自然语言处理

image.png-124.5kB
输入：语音/文本
处理：

形态学（morphology）：形态学（又称“词汇形态学”或“词法”）是语言学的一个分支，研究词的内部结构，包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征，形态学处于音位学、句法学和语义学的结合部位，所以形态学是每个语言学家都要关注的一门学科［Matthews,2000］。

这门课主要关注画圈的三个部分，其中中间的两个是重中之重，虽然深度学习在语音识别上的发力最大。

人类语言的特殊之处：

这构成一种动机，是不是应该用连续的信号而不是离散的符号去处理语言。

机器学习：（学习的其实是人类，而不是机器。机器仅仅做了一道数值优化的题目而已）
+ 对专业问题理解非常透彻。
+ 手工设计特征，比如地名和机构名识别的特征模板。
+ 把特征交给某个机器学习算法，比如线性分类器。
+ 机器为这些特征调整找到合适的权值，将误差优化到最小。

深度学习：（表示学习的一部分，用来学习原始输入的多层特征表示）

传统：分类词典

one-hot向量

词表大小不同。Google的1TB语料词汇量是1300万，这个向量的确太长了。
词语在符号表示上体现不出意义的相似性，比如Dell notebook battery size和Dell laptop battery capacity。而one-hot向量是正交的，无法通过任何运算得到相似度。

Distributional similarity based representations
image.png-280.7kB

一种用向量直接编码含义的方法
通过调整一个单词及其上下文单词的向量，使得根据两个向量可以推测两个词语的相似度；或根据向量可以预测词语的上下文。这种手法也是递归的，根据向量来调整向量，与词典中意项的定义相似。

待完成参考word2vec的数学原理