关键词提取怎么做(NLP中的关键字提取方法总结和概述)

关键词提取怎么做(NLP中的关键字提取方法总结和概述)

关键词提取方法可以在文档中找到相关的关键词。在本文中,我总结了最常用的关键字提取方法。

什么是关键词提取?

关键字提取是从文本文档中检索关键字或关键短语。 这些关键词从文本文档的短语中选择出来的并且表征了文档的主题。 在本文中,我总结了最常用的自动提取关键字的方法。

自动从文档中提取关键字的方法是从文本文档中选择最常用和最重要的单词或短语的启发式方法。我将关键字提取方法归入自然语言处理领域,这是机器学习和人工智能中的一个重要领域。

关键字提取器用于提取单词(关键字)或创建短语(关键短语)的两个或多个单词的组。 在本文中,我使用术语关键字提取,其中包括关键字或关键短语提取。

为什么我们需要关键字提取的方法呢?

节省时间——根据关键词,可以决定文本的主题(例如文章)是否对他感兴趣以及是否阅读。 关键字向用户提供了该篇文章或文档主要内容摘要。

查找相关文档——大量文章的出现使得我们不可能全部进行阅读。 关键词提取算法可以帮助我们找到相关文章。 关键字提取算法还可以自动构建书籍、出版物或索引。

关键字提取作为机器学习的支持——关键字提取算法找到描述文本的最相关的词。 它们以后可以用于可视化或自动分类文本。

关键词提取方法

在本文中,我将概述一些最常用的关键字提取方法。 我会考虑无监督(不需要训练)和领域独立的方法。 我将方法分为三组:统计方法、基于图的方法和基于向量嵌入的方法。

基于统计的方法

统计方法是最简单的。 他们计算关键字的统计数据并使用这些统计数据对它们进行评分。 一些最简单的统计方法是词频、词搭配和共现。 也有一些更复杂的,例如 TF-IDF 和 YAKE!。

TF-IDF 或term frequency–inverse document frequency,会计算文档中单词相对于整个语料库(更多文档集)的重要性。 它计算文档中每个词的频率,并通过词在整个语料库中的频率的倒数对其进行加权。 最后,选择得分最高的词作为关键词。

TF-IDF 的公式如下:

关键词提取怎么做(NLP中的关键字提取方法总结和概述)

1、候选关键词提取——基于停用词和短语分隔符对候选关键词进行文本分割。候选关键字是位于两个停用词或短语定界符之间的短语。例如,短语分隔符是标点符号。

2、关键词共现图构建——图中的顶点是单词。如果它们一起出现在候选关键字中,则它们是连接的。该图是加权的——权重是连接词在候选关键字中一起出现的次数。该图还包括与顶点本身的连接(每个单词与自身一起出现在候选关键字中)。

3、词评分——图中的每个词都用以下评分之一评分:

a) 词度 deg(w)——词 w 共同出现的词数(边权重总和,包括指向顶点本身的边)。度数偏爱出现频率更高、关键字更长的词。

b) 词频 freq(w) — 该词出现在任何候选关键字中的次数。频率偏爱出现频率更高的词。

c) 度数与频率之比 deg(w)/freq(w)——这个指标偏向于主要出现在较长候选关键词中的词。建议使用词度或度数与频率之比。从这两个角度来看,排名将有利于较短的关键字。

4、候选关键词得分——每个候选关键词的得分为其成员词得分之和。

5、相邻关键词——候选关键词不包括停用词。由于有时停用词可能是关键字的一部分,因此在此步骤中添加了它们。该算法在文本中找到与停用词连接的关键字对,并将它们添加到现有停用词集中。它们必须在要添加的文本中至少出现两次。新关键字的得分是其成员关键字的总和。

6、关键词提取——结果,1/3 得分最高的关键词被提取出来。

RAKE 和 TextRank 的主要区别在于 RAKE 考虑候选关键字内的共现而不是固定窗口。 它使用更简单、更具统计性的评分程序。 该算法对每个文档分别进行,因此不需要文档语料库来进行关键词提取。

基于深度学习

深度学习的出现使基于嵌入的方法成为可能。 研究人员开发了几种使用文档嵌入的关键字提取方法(例如 Bennani 等人)。

这些方法主要查找候选关键字列表(例如,Bennani 等人只考虑由名词和形容词组成的关键字)。 他们将文档和候选关键字嵌入到相同的嵌入空间中,并测量文档和关键字嵌入之间的相似度(例如余弦相似度)。 他们根据相似度度量选择与文档文本最相似的关键字。

总结

在本文中介绍了几种从统计、基于图和嵌入方法中提取关键字的方法。 由于该领域非常活跃,我只介绍最常见的方法。我只考虑无监督方法的一个子组(它们不需要训练)。 也有在带注释文档的训练数据集上训练的监督方法。 它们表现良好,但在实践中较少使用,因为它们需要训练并且需要带注释的文档数据集,结果也通常仅适用于训练数据集中的主题。

THE END
喜欢就支持一下吧
点赞7