Latent Semantic Anal...
潜语义分析(LSA,Latent Semantic Analysis; 有时也称作,LSI, Latent Semantic Indexing)是文本建模和分析中常用的模型。LSA是Deerwester, Dumais等在1990年提出的,它引入了矩阵计算中的奇异值分解(SVD, Singular Value Decomposition)和低秩矩阵近似(Low Rank Approximation),对文档集的表示矩阵进行分析,将文档映射到潜语义空间,达到文档潜语义表示和降维的目的。
1.文档的表示
文档表示是文本分析中的基本问题,它可以将人可读文档转化为机器可读数据结构。常用的文本表示方法有向量空间模型(VSM, Vector Space Model),它是一种简单且有效的文档表示方法,广泛的应用于信息检索系统中。
向量空间模型将文档表示为向量,向量的每个维度代表词表中的一个词,对应的值代表的是该词在文档中出现的(加权)次数。
向量空间模型可以很方便的计算出文档与文档之间,文档与查询(query)之间的相似度,度量一般采用cosine相似度(cosine非严格的距离度量方式,其不满足距离度量的三个要素—非负、对称、三角不等式)。
其中,






VSM模型简单,计算方便,可以方便的计算出文档的相关系数(

2.SVD
奇异值分解是将矩阵分解成三个特定矩阵——正交矩阵



其中,








3.Low Rank Approximation
低秩矩阵近似是一个最小化问题,它是在满足近似矩阵的秩的约束下,代价函数(cost function)最小,它的代价函数是原始矩阵(数据矩阵)和近似矩阵之间的差值。
其中,



其中,




4.LSA
前文提到LSA是引入了SVD和低秩矩阵近似进行文本分析。在LSA中,模型通过对文档集表示矩阵(文档-词矩阵)进行奇异值分解,并低秩矩阵近似对文档集表示矩阵进行近似,得到K维空间中的文档-潜语义、潜语义-词的表示矩阵。
其中,




5.Extension
LSI局限于






5.1 RLSI(Regularized LSI)
在LSI的基础上,RLSI[Wang etc., 2013]对文档的主题表示和主题-词之间关系上加入稀疏化控制,同时去除LSI中


其中,














上式对于







(1)给定


令

式(8)可以分解成M个独立的优化问题,每个问题形式为:
式(9)是一个





其中,




其中,

(2)给定


类似问题(1),更新


式(12)为


5.2 Online-RLSI
在处理流式文档数据时,文档是按序一一到达,且文档中包含的主题是不断变化的。Online-RLSI可以有效的跟踪话题演化(Topic tracking)。类似式(6),目标方程为:
式(14)中第一项是

在online-RLSI中,文档是相互独立的。当文档

Online-RLSI通过式(15)得到文档

其中,


类比于batch-RLSI,式(15)是式(12)的近似,式(16)是式(14)的近似。
(1)文档投影
文档投影问题是一个L2正则的最小二乘问题,其解为
(2)更新主题-词矩阵
式(16)等同于下式,
其中,


令



6.Conclusion
LSI模型(扩展模型)相对后续介绍的pLSA,LDA,DP等比较简单,仅用常用矩阵分解方式对文档-词矩阵进行分析,同时LSI模型没有对应的概率生成过程描述,无法用概率图模型表示。
7.参考文献
[1].Dumais, S. T. (2004). Latent semantic analysis. Annual review of information science and technology, 38(1), 188-230.
[2].Wikipedia. Latent Semantic Analysis, http://en.wikipedia.org/wiki/Latent_s
emantic_indexing.
[3].Lee, D. D., & Seung, H. S. (2001). Algorithms for non-negative matrix factorization. In Advances in neural information processing systems (pp. 556-562).
[4].Hoyer, P. O. (2004). Non-negative matrix factorization with sparseness constraints. The Journal of Machine Learning Research, 5, 1457-1469.
[5].Strang, G. (2003). Introduction to linear algebra. Cambridge Publication.
[6].Wikipedia. Non-negative Matrix Factorization. http://en.wikipedia.org/wiki/Non-negative_matrix_factorization
[7].Wikipedia. Singular Value Decomposition. http://en.wikipedia.org/wiki/Singular_
value_decomposition
[8].Quan Wang, Jun Xu, Hang Li, and Nick Craswell. (2013). Regularized Latent Semantic Indexing: A New Approach to Large-Scale Topic Modeling. ACM Trans. Inf. Syst. 31
留下你的评论