【信息检索与数据挖掘期末笔记】（三）文档评分

长命百岁️

于 2022-11-30 17:46:24 发布

阅读量431

点赞数

分类专栏：信息检索与数据挖掘笔记文章标签：数据挖掘算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52852138/article/details/128119265

信息检索与数据挖掘笔记专栏收录该内容

6 篇文章 6 订阅

布尔查询

要么返回，要么不返回（不利于一般用户，难书写）
常常不返回，或者返回大量结果

排序检索模型

返回一个排序的文档结果
不用写布尔查询表达式，写人类语言就可以
结果集的大小不是问题，我们可以只返回前 k 个结果。
- 前提:排名算法是有效的

Jaccard 系数

测量两个集合之间的重合度,但是没有考虑term frequency(罕见的词比常见的词包含更多信息)

在这里插入图片描述

词袋模型

不考虑词项在文档中出现的次序，但是出现的次数很重要。和布尔检索形成鲜明对比

Term frequency

$tf_{t,d}$ 代表 $t$ 在 $d$ 中出现的次数

一个文档中出现该词十次，比一个出现一个的文档更相关
但不是十倍相关（相关性不与 $t f$ 成比例增加）

我们经常采用 $\log$ 的形式来计算权重

在这里插入图片描述

查询-文档对的得分可以用加和的形式来表示。-查询 $q$ 中的所有词在文档 $d$ 中的权重和

在这里插入图片描述

Document frequency

罕见的词比常见的词包含更多的信息，因此我们应该赋予更大的权重（ $t f$ 认为所有的词是一样重要的）

但是这不是相关性的确切指标（可能对于频繁出现的词项，我们想要比较大的权重）

$df_t$ ：包含这个词的文档的数目（是信息的反向测量）

$idf_f$ ：逆文档频率

在这里插入图片描述

idf对于单个词项的查询排序没有效果，查询至少包括两个词才有效果

tf-idf

$t f$ 和 $i d f$ 的乘积（两方面综合考虑）

在这里插入图片描述

查询-文档对的得分

在这里插入图片描述

向量空间模型

默认向量的计算使用 $tf\_idf$

文档表示成向量

在这里插入图片描述

一系列的文档在同一向量空间中的表示被称为向量空间模型。

文档向量：每个分量代表词项在文档中的相对重要性（每个词项对应一个坐标轴，文档是空间中的点）

维度很大，且大多数都是零，因此是稀疏向量

查询语句表示成向量

思想：

将查询语句看作一篇极短的文档，查找与其相似的文档
将查询表示成空间中的向量
将文档按照其与查询的相似度进行排序

那么，如何进行相似度计算呢？

欧式距离？：不行，对与长度不同的向量，欧式距离很大。 $q$ 和 $d_2$ 距离很大尽管他们比较相似

我们将一篇文档复制为原来的两倍，尽管他们表达的内容一样，但他们之间的距离很大，不过角度差却为0

角度 —> cos:

思想：将向量进行归一化处理

算出来的值越大越相关

我们可以按照角度从小到大进行排序
也就是按照cos值从大到小进行排序

对于已经归一化后的向量，计算其余弦相似度其实就是点乘

在这里插入图片描述

算法流程（以查询中的词项为单位，增加文档的得分） $w_{t,q}$ 是词项在查询语句中的权重

在这里插入图片描述

文档权重和查询权重机制

向量空间中各种相似度评分方法的不同，主要在于向量中的权重计算机制的不同。文档向量和查询向量权重计算方法的组合字母标识为ddd.qqq（SMART记号）。前三位是文档向量的权重计算方法，后三位是查询向量的权重计算方法

三位字母的含义

第一位： $t f$ 因子
第二位： $d f$ 因此
第三位：归一化方法

总结

将查询表示成权重向量
将文档表示成权重向量
计算查询向量与文档向量的余弦相似度
通过得分对文档进行排序
返回top K 个

长命百岁️

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

长命百岁️ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。