您的位置首页  散文随笔

一篇读懂同义词替换(此外的同义词替换)

同义词分为上下文无关和上下文有关两种。对于前者,其在任意上下文时都可以替换,使用起来比较简单。对于后者,不同的上下文表现则不同,需要结合上下文来判断要不要替换,不合理的同义词替换会召回和用户意图不符的结果。

一篇读懂同义词替换(此外的同义词替换)

 

上篇文章介绍离线同义词挖掘中的噪音过滤方法本文继续介绍z在线如何对同义词进行替换wedata24,公众号:WeData365离线同义词过滤搜索利用同义词扩展出query的不同描述方式,用来召回描述不一致但意思相同的doc。

比如query “减肥快招”,很多doc的描述是“瘦身快招”,“减肥秘籍”,如果直接基于原词来检索(减肥AND 快招),可能会导致召回文档不足如果将“减肥”同义成“瘦身”,“快招”同义成“秘籍”,将同义词和原词一起下发检索串(减肥 OR 瘦身)AND(快招 OR 秘籍),则能召回更多相关的文章。

尤其当原query没有召回相关doc时,合理的同义词扩展作用就更加重要同义词分为上下文无关和上下文有关两种对于前者,其在任意上下文时都可以替换,使用起来比较简单对于后者,不同的上下文表现则不同,需要结合上下文来判断要不要替换,不合理的同义词替换会召回和用户意图不符的结果。

比如同义词对“钱包->零钱包”,query“有哪些质量好的钱包”替换成“有哪些质量好的零钱包”是合理的,但是 query“玖富钱包”替换成“玖富零钱包”则是不合理的再者由于挖掘的同义词也不能保证是完全正确,比如国贸和地贸,虽然语义上强相关,但是并不是同义词,也不能在query 中进行替换。

同时一个词可能有很多个同义词,考虑同义词替换的准确性和后续使用的性能,需要从候选的同义词中选择最佳的2-3个同义词进行替换扩展具体介绍替换方法之前,存在一些query不能进行同义词替换,尤其是一些垂类的实体,比如歌曲伤心太平洋。

对于这种常用的方法是挖掘一些热门query或实体形成白名单,在线时不进行替换结合同义词的挖掘方法,同义词可分为3类,结合不同的类型,也对应不同的替换方法1) 上下文无关同义词可直接替换2) 同义片段通常带有精确的上下文,在线替换时采用相对更轻的方法。

语言模型用来判断一句话的概率首先用语言模型算出原句子的概率,然后用同义词替换掉原词,生成新的句子,再利用语言模型判断新句子的概率,如果新句子的概率高于或者约等于原句子的概率,则可以断定同义词在上下文中有效。

假设原始query(q)经过同义词对(wi->wj)替换后变成同义词 query(q′),则其替换概率计算公式如下,其中p(wi → wj)是同义词对的前向替换概率,在挖掘同义词词典时进行计算。

3) 同义词由于缺少精确的上下文,在线替换时可采用相对更重的方法如果仍采用第二种的策略,会出现替换后的query语言模型的概率很高,但query语义发生了漂移,比如query“没关系”->“不联系”,虽然“不联系”的语言模型概率比较高,但是替换并不合理。

同时用户输入的 query 往往也是若干关键词的组合,本身从语言模型的角度其概率也不高因此要结合替换词前后的紧密度,语义相似性等多种维度来判断 query 是否进行同义词替换因此需要在替换时考虑更重的上下文信息。

通常将其看成一个有监督任务,基于机器学习来判断是否进行同义词替换机器学习解决同义词使用需要有三个问题:1)训练样本利用点击日志构建共点击query集,如果原词出现在query中,同义词出现在多个以上的相似query中并且相似query不包含原词,则构成正例数据,如果原词出现在query中,同义词在所有的相似的query中都没有出现,则构成负例数据,同时为了提高训练数据的质量,过滤掉原词与同义词差别仅为停用词,还有一些原词和同义词的前缀相同的数据也过滤。

2)特征抽取利用共点击query集,统计原词和同义词出现的概率、包含上下文片段的原词和同义词共现概率(包括四元、三元、二元),统计数据离线做成字典供线上使用此外原词与同义词级别,查询长度,原词词数,同义词词数,。

语言模型特征,同义词词典特征,词向量特征,紧密度特征也比较有帮助3)模型选取同义词使用可以看成分类问题,通常选取决策树、GBDT、随机森林等算法,通过机器学习模型可以判断在原词的上下文中,候选同义词是满足以及判断同义词级别。

搜索使用同义词的策略是将同义词召回文档和原词召回文档放在一起排序,只是不同程度的降低同义词的词权重信息这样会存在两个弊端:首屏同义词召回结果过多,提高了同义词召回不相关结果的坏影响;或者,同义词结果排的过于靠后,没有将同义词召回的好结果展示出来。

此时通常使用同义词混排策略来解决上述问题即将原词和同义词召回文档分别作为两个队列,将同义词列队中的文档按一定策略插入到原词队列中保证以相关性打分排序的同时增加查询结果的多样性,降低同义词使用的风险同义词混排遵循原则:内部顺序不变。

即混排结果中,同义词文档之间相对位置不变,原词文档之间相对位置不变;原词文档结果尽量不排在后面,同义词文档尽量不排在前面规避同义词使用的风险;保证结果的多样性相关阅读1. 搜索系统和推荐系统的对比2. 

搜索系统的原理3. 语义搜索系统的原理4. 搜索系统的架构和主要模块5. 搜索系统在算法上面临的挑战6. 搜索系统的评测方式7. term重要性的两种任务形式8. term紧密度的任务形式9. term紧密度的计算方法

10. term丢词的任务形式11. phrase模块的任务形式12. 实体识别的任务形式13. 实体识别 - 知识增强的实体识别14. 实体识别 - 开放域实体识别的任务形式15. 实体识别 - 多粒度实体识别的任务形式

16. 实体识别 - 非连续实体识别的方法17. 同义词模块的任务形式18. 离线同义词挖掘(一)19. 离线同义词挖掘(二)20. 离线同义词过滤本文内容为WeData365所有,未经授权许可不得任意转载复制

,违者必究!

更多精彩长按图片关注“WeData365”联系我们

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186