cs224n笔记1~4 Natural Language Processing with Deep Learning

1. Intro

自然语言处理

image.png-124.5kB
输入: 语音/文本
处理:

  • 语音识别+OCR/分词
  • 形态学
  • 句法分析
  • 语义分析

形态学(morphology):形态学(又称“词汇形态学”或“词法”)是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征,形态学处于音位学、句法学和语义学的结合部位,所以形态学是每个语言学家都要关注的一门学科[Matthews,2000]。

这门课主要关注画圈的三个部分,其中中间的两个是重中之重,虽然深度学习在语音识别上的发力最大。

人类语言的特殊之处

  • 自然语言的随机性小而目的性强
  • 人类语言是离散的、明确的符号系统。
  • 但又允许出现各种变种,比如颜文字,随意的错误拼写“I loooove it”。
  • 符号传输到大脑的过程是通过连续的声学光学信号,大脑编码似乎是连续的激活值上的模式。
  • 巨大的词表也导致数据稀疏,不利于机器学习。

这构成一种动机,是不是应该用连续的信号而不是离散的符号去处理语言。

深度学习

机器学习:(学习的其实是人类,而不是机器。机器仅仅做了一道数值优化的题目而已)
+ 对专业问题理解非常透彻。
+ 手工设计特征,比如地名和机构名识别的特征模板。
+ 把特征交给某个机器学习算法,比如线性分类器。
+ 机器为这些特征调整找到合适的权值,将误差优化到最小。

深度学习:(表示学习的一部分,用来学习原始输入的多层特征表示)

  • 手工特征耗时耗力,还不易拓展
  • 自动特征学习快,方便拓展
  • 深度学习提供了一种通用的学习框架,可用来表示世界、视觉和语言学信息
  • 深度学习既可以无监督学习,也可以监督学习

2. Word2Vec

理解词义

传统:分类词典

  • 丢失微妙的差别:adept, expert, good, practiced, proficient, skillful
  • 缺少新词
  • 主观化
  • 需要耗费大量人力去整理
  • 无法计算准确的词语相似度

one-hot向量

  • 词表大小不同。Google的1TB语料词汇量是1300万,这个向量的确太长了。
  • 词语在符号表示上体现不出意义的相似性,比如Dell notebook battery size和Dell laptop battery capacity。而one-hot向量是正交的,无法通过任何运算得到相似度。

Distributional similarity based representations
image.png-280.7kB

  • 一种用向量直接编码含义的方法
  • 通过调整一个单词及其上下文单词的向量,使得根据两个向量可以推测两个词语的相似度;或根据向量可以预测词语的上下文。这种手法也是递归的,根据向量来调整向量,与词典中意项的定义相似。

Word2Vec

待完成 参考word2vec的数学原理

3. GloVe