浅谈查全率(Recall)和查准率(Precision)及准确率(Accuracy)及TPR….

最近在学习ES的时候,偶然听到了两个词汇,分别是 查全率 和 查准率,对应的场景是在ES检索时的IK分词器力度上;

简单了解了一下,发现是一个比较有意思的概念,遂记录于此,加深印象;

为了方便理解,我们通过一个混淆矩阵来描述这种关系,其矩阵如下:

通过上述矩阵,我们可以通过一些维度,获取到我们想要的指标,比如

TPR:意为正样本中预测为正的样本比例,其公式为:

FNR:意为正样本中预测为负的样本比例,其公式为:

FPR:意为负样本中预测为正的样本比例,其公式为:

同样,通过混淆矩阵,我们还可以算出本次预测的准确率(Accuracy),及当前预测结果中,预测命中率,又称为精确度;精确度是分类正确的样本数占样本总数的比例。

关于查全率和查准率,在ES检索中使用IK分词器时,IK分词器有两种不同的分词力度,分别是粗粒度(ik_smart)和细粒度(ik_max_word);这两种分词器刚好可以照应我们这里需要了解的 查全率 和 查准率;

使用粗粒度分词,会产生的结果就是,查询的数据比较准确,但是不齐全;使用细粒度分词器,会产生的结果就是,查询的数据比较全面,但是不是很准确;

我们看一下查全率和查准率的概念;

查全率:查询的样本中为正的占查询出的数据的总量,也可以理解为 真实为正样本中有多少是预测正确的;其公式如下:

查准率:真实为正的样本中占预测为正的样本的比例:其公式如下图

查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。其模型如下图

发表回复

相关推荐

春夏必備的白t恤,5步穿出簡約高級感

無論衣櫥“改朝換代”幾輪,白T恤的地位永遠無法撼動。在我看來,白T的難點在於選款,基本上選到適合的款式,怎麼搭配都不會醜...

· 2分钟前

酒糟雖好,也不能亂喂!

酒糟是指谷物釀酒後殘餘物,共有六類:啤酒糟、白酒糟、酒精糟、黃酒糟、葡萄酒糟、果露酒酒糟。酒糟具有很高的營養價值,富...

· 4分钟前

四川来的小郡肝,吃货口中的“心肝宝贝”

如果说火锅是四川饮食的灵魂,那么这不安分的灵魂分化出的“三魂七魄”也是天府之国带给吃货的惊喜,比如冒菜、串串,甚至包括 ...

· 5分钟前

什么是撩?— —浅谈男女之间的撩与被撩

很多时候,“撩”,在没接触和聊天之前就已经开始了。

· 6分钟前

图文介绍:Cochrane数据库的文献检索方法

系统综述的研究步骤包括:根据PICO原则确定研究题目、制定检索策略、检索文献、筛选文献、提取数据、整理和分析数据、评价研 ...

· 10分钟前