精选文章 分类--准确率

分类--准确率

作者:dengao9681 时间: 2021-02-07 01:34:14
dengao9681 2021-02-07 01:34:14
【摘要】准确率是一个用于评估分类模型的指标。通俗来说,准确率是指我们的模型预测正确的结果所占的比例。正式点说,准确率的定义如下: 
  
  $$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$ 
  
  对于二元分类,也可以根据正类别和负类别按如下...

准确率是一个用于评估分类模型的指标。通俗来说,准确率是指我们的模型预测正确的结果所占的比例。正式点说,准确率的定义如下:

$$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$

对于二元分类,也可以根据正类别和负类别按如下方式计算准确率:

$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$$

其中,TP = 真正例,TN = 真负例,FP = 假正例,FN = 假负例。

让我们来试着计算一下以下模型的准确率,该模型将 100 个肿瘤分为恶性(正类别)或良性(负类别):

真正例 (TP):
  • 真实情况:恶性
  • 机器学习模型预测的结果:恶性
  • TP 结果数:1
假正例 (FP):
  • 真实情况:良性
  • 机器学习模型预测的结果:恶性
  • FP 结果数:1
假负例 (FN):
  • 真实情况:恶性
  • 机器学习模型预测的结果:良性
  • FN 结果数:8
真负例 (TN):
  • 真实情况:良性
  • 机器学习模型预测的结果:良性
  • TN 结果数:90
$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91$$

准确率为 0.91,即 91%(总共 100 个样本中有 91 个预测正确)。这表示我们的肿瘤分类器在识别恶性肿瘤方面表现得非常出色,对吧?

实际上,只要我们仔细分析一下正类别和负类别,就可以更好地了解我们模型的效果。

在 100 个肿瘤样本中,91 个为良性(90 个 TN 和 1 个 FP),9 个为恶性(1 个 TP 和 8 个 FN)。

在 91 个良性肿瘤中,该模型将 90 个正确识别为良性。这很好。不过,在 9 个恶性肿瘤中,该模型仅将 1 个正确识别为恶性。这是多么可怕的结果!9 个恶性肿瘤中有 8 个未被诊断出来!

虽然 91% 的准确率可能乍一看还不错,但如果另一个肿瘤分类器模型总是预测良性,那么这个模型使用我们的样本进行预测也会实现相同的准确率(100 个中有 91 个预测正确)。换言之,我们的模型与那些没有预测能力来区分恶性肿瘤和良性肿瘤的模型差不多。

当您使用分类不平衡的数据集(比如正类别标签和负类别标签的数量之间存在明显差异)时,单单准确率一项并不能反映全面情况。

在下一部分中,我们将介绍两个能够更好地评估分类不平衡问题的指标:精确率和召回率。


引用

分类 (Classification):准确率

转载于:https://www.cnblogs.com/taro/p/8643274.html

勿删,copyright占位
分享文章到微博
分享文章到朋友圈

上一篇:分类--真与假以及正类别与负类别

下一篇:leetcode 349. Intersection of Two Arrays

您可能感兴趣

  • 06上半年网络工程师试题分类精讲.第一部分:计算机与网络知识(上午考试科目).第一章:计算机系统知识...

    二、操作系统知识 1、 基本概念: 操作系统定义、特征、功能及分类(批处理、分时、实时、网络、分布式); 多道程序; 内核和中断控制; 2、 处理机管理、存储管理、设备管理、文件管理、作业管 理: 进程的状态及转换; 进程调度算法(分时轮换、优先级、抢占); 死锁; 存储管理方案(分段与分页、虚存、页面置换算法); 设备管理的有关技术(SPOOLING、缓冲、DMA、总线、即插即用技术); ...

  • 报表工具分类-数学模型

    简单地说,数据统计模型就是使用报表开发工具,如何从数据源中取数、组织运算的规则。   它是报表开发工具最重要的指标,决定了报表软件的能力和效率。   根据不同的数据模型,报表开发工具被分作 电子表格和 传统工具两类,快逸报表则不属于任何一类,是新一代报表模型。   电子表格类完全模拟EXCEL,数据由程序员编程取出、运算后写入表格,没有任何自动化处理的能力,严格意义上讲电子...

  • 关于"多级目录(分类)"的一些想法 ----- 实现方法

    问题是这样的:    假设我们的网站是一个购物网,现在我们对商品进行分类,分成5个大类:A、B、C、D、E;二级目录分别为 (A:A11、A12、A13)、(B:B11、B12、B13)...;然后三级目录(A1:A211、A212、A213)、(B1:B211、B212、B213)...;然后四级、五级...

  • FTP 分类说明

    FTP 分为两类,一种为PORT FTP,也就是一般的FTP﹔另一类是PASVFTP,分述如下: PORT FTP 这是一般形式的FTP,首先会建立控制频道,默认值是port 21,也就是跟 port 21 建立联机,并透过此联机下达指令。第二,由FTP server 端会建立数据传输频道,默认值为20,也就是跟port 20 建立联机,并透过port 20 作数据的传输。 PASV F...

  • 第2讲 动词按活用形的分类

    动词按其活用形分成五段动词、上下一段动词、变格动词(サ变和カ变)。这五类动词的辨别,对初学者是相当困难的。笔者经过多年的教学,总结出如下所述的动词分类表,俗称“大圆盘”,供有关人士参考利用。   本方法是采用了排除法,逐级辨别有特征的动词。     大圆盘由粗实线分成4个部分,分别为:五段动词、上下一段动词、サ变动词和カ变动词。   1,从最容易辨认的开始,カ变动词只有...

  • 流量分类和标记

    流量分类是将数据报文划分为多个优先级或多个服务类,如使用IP报文头的ToS(Type of service,服务类型)字段的前三位(即IP优先级)来标记报文,可以将报文最多分成8类;若使用DSCP(Differentiated Services Codepoint,区分服务编码点,ToS域的前6位),则最多可分成64类。在报文分类后,就可以将其它的QoS特性应用到不同的分类,实现基于类的拥塞...

  • 专业化分类服务,引领IDC行业发展新模式

    “清水服务”—风光难长久 随着互联网及其相关应用产业的发展,内容更丰富,服务更深层次的网络服务提供商IDC(Internet Data Center),早已成为应用服务提供商ASP(Application Service Provider)重要的网络服务平台。 纵观国外IDC(互联网数据中心)行业发展的丰富实践经验,已经历了三个不同的发展阶段。第一代的数据中心主要提供场地、电源、带...

  • 传感器的定义和分类

    英文名称:transducer / sensor   传感器是一种物理装置或生物器官,能够探测、感受外界的信号、物理条件(如光、热、湿度)或化学组成(如烟雾),并将探知的信息传递给其他装置或器官。   传感器的定义   国家标准GB7665-87对传感器下的定义是:“能感受规定的被测量并按照一定的规律转换成可用信号的器件或装置,通常由敏感元件和转换元件组成”。传感器...

CSDN

CSDN

中国开发者社区CSDN (Chinese Software Developer Network) 创立于1999年,致力为中国开发者提供知识传播、在线学习、职业发展等全生命周期服务。

华为云40多款云服务产品0元试用活动

免费套餐,马上领取!
分类--准确率介绍:华为云为您免费提供分类--准确率在博客、论坛、帮助中心等栏目的相关文章,同时还可以通过 站内搜索 查询更多分类--准确率的相关内容。| 移动地址: 分类--准确率 | 写博客