Latent Semantic Analysis (LSA)
发布时间:2016-06-16 栏目:机器学习, 自然语言处理 评论:0 Comments
Latent Semantic Analysis 模型,隐性语义分析,也就是我们常说的LSA模型。后面还有他的兄弟PLSA和LDA模型,这个我们后面再说。这几个都是NLP中比较经典的模型!学习这个模型,主要总结到了三个方面:LSA模型可以应用在哪儿?LSA的理论部分,以及LSA的优缺点分析。
1. LSA的应用
LSA可以在VSM中降低样本的维度,并且可以从文本中发现隐含的语义维度。
在VSM中,文档被表示成由特征词出现的概率组成的多位向量,这个方法的好处就是可以把一个文本转化成数值向量,然后做一些相似度计算,聚类分类等等。
但是,在VSM中,无法处理一词多义和一义多词问题。例如,在VSM模型中,“被子”和“被褥”是两个完全不同的维度,而“笔记本”(notebook or laptop?)又被表示成相同的维度,因此不能够体现文本中隐含的语义。
所以说, LSA模型可以用来挖掘文本中的语义信息,减轻一词多义和一义多词问题 。
2. LSA的理论分析
LSA模型的理论部分是基于奇异值分解SVD的,这个SVD在数据挖掘领域是很常见的, 基于SVD的算法还有著名的降维算法:主成份分析法,PCA(Primary Component Analysis)。 而且,我觉得PCA和LSA在一定程度上非常相似,只不过LSA明确了应用背景是NLP。
Step 1:在VSM模型中,一个文本被表示成一个向量,许多个文本被表示成为了一个矩阵C。C中的每一列都是一个文本,每一行即使一个term。
Step 2: 我们对矩阵C做SVD分解,如下:
学过矩阵论就会直到,中间的sigma就是有C的特征值组成的一个对角矩阵。假设C矩阵有r个特征值,那么我们把r个特征值从大到小排列,前k个保留,后面r-k个置零,得到了sigman_k。
Step 3: 我们计算一个近似的分解矩阵,如下:
由于sigma_k中只有k个非零值,所以C_k的rank(秩)不会超过k。
新得到的C_k就是我们经过LSA模型提取到的新矩阵,而且 C_k就是新的低维隐含语义空间 。该空间中,每个奇异值对应的是每个“语义”维度的权重,我们刚才将不太重要的权重置为零,只保留最重要的维度信息,因而可以得到文档的一种更优表达形式。
3. LSA模型的优缺点
优点: 可以把原文本特征空间降维到一个低维语义空间;减轻一词多义和一义多词问题。
缺点: 在SVD分解的时候,特别耗时,而且一般而言一个文本特征矩阵维数都会特别庞大,SVD此时就更加耗时;
而且,LSA缺乏严谨的数理统计基础。
LSA最初是用在语义检索上,为了解决一词多义和一义多词的问题:
1.一词多义: 美女和PPMM表示相同的含义,但是单纯依靠检索词“美女”来检索文档,很可能丧失掉那些包含“PPMM”的文档。
2.一义多词:如果输入检索词是多个检索词组成的一个小document,例如“清澈 孩子”,那我们就知道这段文字主要想表达concept是和道德相关的,不应该将“春天到了,小河多么的清澈”这样的文本包含在内。
为了能够解决这个问题,需要将词语(term)中的concept提取出来,建立一个词语和概念的关联关系(t-c relationship),这样一个文档就能表示成为概念的向量。这样输入一段检索词之后,就可以先将检索词转换为概念,再通过概念去匹配文档。
在实际实现这个思想时,LSA使用了SVD分解的数学手段。我们可以将document and term表示成为矩阵的形式。用x表示term-document matrix,通过SVD分解X可以表示为
x=T*S*D 。
S为对角矩阵,对角元素表示对应概念的有效程度。其实在实际生活当中概念就是具体事物的抽象,被人们所接受和使用的概念都是能够很有效概念。LSA算法也和实际生活中一样,需要提出掉有效程度低的概念,保留有效程度高的概念。
T为正交矩阵,行向量表示term,列向量表示概念
D为正交矩阵,行向量表示概念,列向量表示document
留下评论
You must be logged in to post a comment.
近期评论
- Pika发表在《莫里斯蠕虫(Morris Worm)》
- Pika发表在《多组学科研分析》
- crisy发表在《最近关于专利的一点感想》
- walter发表在《机器学习基础知识回顾-马尔科夫过程(Markov Process)》
文章归档
- 2024年3月
- 2024年2月
- 2023年12月
- 2023年11月
- 2023年10月
- 2023年9月
- 2023年8月
- 2023年7月
- 2023年6月
- 2023年5月
- 2023年4月
- 2023年3月
- 2023年2月
- 2023年1月
- 2022年12月
- 2022年11月
- 2022年9月
- 2022年8月
- 2022年7月
- 2022年6月
- 2022年5月
- 2022年3月
- 2022年2月
- 2022年1月
- 2021年12月
- 2021年11月
- 2021年10月
- 2021年9月
- 2021年8月
- 2021年7月
- 2021年6月
- 2021年5月
- 2021年4月
- 2021年2月
- 2021年1月
- 2020年12月
- 2020年11月
- 2020年10月
- 2020年8月
- 2020年7月
- 2020年6月
- 2020年5月
- 2020年4月
- 2020年3月
- 2020年2月
- 2019年7月
- 2019年5月
- 2019年3月
- 2019年1月
- 2018年6月
- 2018年5月
- 2018年4月
- 2018年3月
- 2018年2月
- 2017年11月
- 2017年7月
- 2017年6月
- 2017年5月
- 2017年3月
- 2016年12月
- 2016年11月
- 2016年10月
- 2016年9月
- 2016年8月
- 2016年7月
- 2016年6月
- 2016年5月
- 2016年4月
- 2016年3月
- 2016年2月
- 2016年1月
- 2015年12月
- 2015年11月