什么是方差

news/2024/10/8 13:31:46 标签: 机器学习

方差(Variance) 是统计学中的一个重要概念,用来度量一组数据的离散程度或分散程度。具体来说,方差反映了数据点与其均值之间的偏离程度。方差越大,说明数据点越分散,方差越小,说明数据点越集中。

方差的定义

对于一组数据 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn,方差的数学定义如下:

1. 总体方差(Variance for a population):

假设我们有一个总体的数据集,包含 N N N 个数据点,那么总体方差 σ 2 \sigma^2 σ2 的定义为:
σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 σ2=N1i=1N(xiμ)2

其中:

  • σ 2 \sigma^2 σ2 是总体方差。
  • N N N 是数据集中的数据点总数。
  • x i x_i xi 是第 i i i 个数据点。
  • μ \mu μ 是数据集的均值,即 μ = 1 N ∑ i = 1 N x i \mu = \frac{1}{N} \sum_{i=1}^{N} x_i μ=N1i=1Nxi
2. 样本方差(Variance for a sample):

在实践中,我们通常只对总体中的一部分数据(即样本)进行观察。样本方差用来估计总体方差,定义如下:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n11i=1n(xixˉ)2

其中:

  • s 2 s^2 s2 是样本方差。
  • n n n 是样本的数量。
  • x i x_i xi 是第 i i i 个样本点。
  • x ˉ \bar{x} xˉ 是样本的均值,即 x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1i=1nxi
  • n − 1 n-1 n1 是自由度,用来校正样本方差对总体方差的估计。

区别:样本方差和总体方差的主要区别在于分母。样本方差使用 n − 1 n-1 n1 而不是 n n n,这样做的原因是为了得到更为无偏的方差估计,因为样本均值 x ˉ \bar{x} xˉ 通常是一个对总体均值 μ \mu μ 的估计。

方差的直观解释

方差描述了数据点是如何围绕均值分布的。通过计算每个数据点与均值之间的差,然后将这些差值平方,再求取平均值,方差提供了一种量化的方式来衡量数据的分散性。平方的目的在于避免正负差值相互抵消,使得方差始终是一个非负值。

  • 方差较小:如果数据点都集中在均值附近,方差值会比较小,说明数据的波动性较小。
  • 方差较大:如果数据点分布得较分散,远离均值,方差值会比较大,说明数据的波动性较大。

方差的意义

  1. 度量数据的离散程度:方差反映了数据的分散程度,方差越大,数据的波动性就越大。
  2. 模型评估中的应用:在机器学习中,方差用于评估模型的拟合程度。例如,在回归问题中,模型的误差可以通过方差来衡量,误差的方差越小,模型的拟合效果就越好。
  3. 特征选择中的应用:在特征选择中,特征的方差可以作为选择标准。高方差的特征可能包含更多的区分信息,而方差过小的特征可能对模型影响不大。
  4. 偏差-方差权衡(Bias-Variance Tradeoff):在机器学习中,方差和偏差的权衡是评估模型的一项重要指标。模型的方差过大可能意味着模型过拟合,而方差过小可能意味着模型欠拟合。

举例说明

假设我们有一组数据: [ 2 , 4 , 4 , 4 , 5 , 5 , 7 , 9 ] [2, 4, 4, 4, 5, 5, 7, 9] [2,4,4,4,5,5,7,9]

  1. 计算均值
    μ = 2 + 4 + 4 + 4 + 5 + 5 + 7 + 9 8 = 5 \mu = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5 μ=82+4+4+4+5+5+7+9=5

  2. 计算方差
    σ 2 = 1 8 ( ( 2 − 5 ) 2 + ( 4 − 5 ) 2 + ( 4 − 5 ) 2 + ( 4 − 5 ) 2 + ( 5 − 5 ) 2 + ( 5 − 5 ) 2 + ( 7 − 5 ) 2 + ( 9 − 5 ) 2 ) \sigma^2 = \frac{1}{8} \left( (2-5)^2 + (4-5)^2 + (4-5)^2 + (4-5)^2 + (5-5)^2 + (5-5)^2 + (7-5)^2 + (9-5)^2 \right) σ2=81((25)2+(45)2+(45)2+(45)2+(55)2+(55)2+(75)2+(95)2)

σ 2 = 1 8 ( 9 + 1 + 1 + 1 + 0 + 0 + 4 + 16 ) \sigma^2 = \frac{1}{8} \left( 9 + 1 + 1 + 1 + 0 + 0 + 4 + 16 \right) σ2=81(9+1+1+1+0+0+4+16)

σ 2 = 1 8 × 32 = 4 \sigma^2 = \frac{1}{8} \times 32 = 4 σ2=81×32=4

因此,这组数据的总体方差是 4。

方差和标准差的关系

标准差(Standard Deviation) 是方差的平方根。标准差和方差都用来度量数据的离散程度,但标准差的单位与原数据相同,因此在解释数据的分散性时,标准差比方差更直观。公式如下:
σ = σ 2 \sigma = \sqrt{\sigma^2} σ=σ2

对于上面的例子,方差是 4,那么标准差为:
σ = 4 = 2 \sigma = \sqrt{4} = 2 σ=4 =2

总结

  • 方差 是用于度量数据集离散程度的统计量,反映了数据与均值之间的偏离程度。
  • 方差越大,数据越分散;方差越小,数据越集中。
  • 方差在机器学习、数据分析、金融等多个领域中有着广泛的应用,特别是在模型评估、特征选择等方面。
  • 方差的平方根是 标准差,它更加直观,常用于描述数据的波动性。

http://www.niftyadmin.cn/n/5694216.html

相关文章

CSS基础-选择器(一)

1、CSS简介 CSS(层叠样式表)是一种文本标记语言,是修饰 HTML 和 XML 的标记语言。 2、CSS引入方式 2.1 行内样式(内嵌样式) 在标签中写入style"名值对"的形式,多个名值对之间使用;隔开&#xff…

Python知识点:运用Python工具,如何使用BERT进行句子嵌入

开篇,先说一个好消息,截止到2025年1月1日前,翻到文末找到我,赠送定制版的开题报告和任务书,先到先得!过期不候! 如何使用Python的BERT进行句子嵌入 BERT(Bidirectional Encoder Rep…

【高阶数据结构】二叉树进阶探秘:AVL树的平衡机制与实现详解

高阶数据结构相关知识点可以通过点击以下链接进行学习一起加油!二叉搜索树 大家好,这里是店小二!今天我们将深入探讨高阶数据结构中的AVL树。AVL树是一种自平衡的二叉搜索树,可以看作是对传统二叉搜索树的优化版本。如果你对数据结…

自动驾驶系列—揭秘毫米波雷达:自动驾驶的眼睛如何看穿复杂环境?

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中…

C++ 语言特性21 - 别名模板

一:概述 别名模板是 C11 引入的,用于为一个模板类型定义别名,从而简化复杂的模板类型定义。它结合了 using 关键字,可以对模板类型进行重新命名,使代码更加简洁和可读。 1. 作用 定义模板类型的别名。简化复杂的模板类…

Chromium 关闭 Google Chrome 后继续运行后台应用功能分析c++

此功能允许关闭 Google Chrome 后继续运行后台,控制此功能的开关是 // Set to true if background mode is enabled on this browser. //更改此值可以修改默认开启关闭 inline constexpr char kBackgroundModeEnabled[] "background_mode.enabled"; …

一文讲清楚退耦电容的位置摆放及其过孔设计

文章目录 一、电容的基础知识二、滤波、去耦和旁路的区别三、电源退耦时电容摆放及过孔设计:1.对电容位置摆放的要求:2.过孔设计常见错误分析3.降低过孔引入的寄生电感4.分析盘中孔工艺 四、结论 在PCBlayo…

微信公众号菜单栏----第⑦篇

如果你是新手小白&#xff0c;请从微信公众号开发第一篇看起&#xff1a;微信公众号开发-接口配置信息&#xff08;第①篇&#xff09;_微信公众号 接口配置信息怎么设置-CSDN博客 代码&#xff1a; <?php// 获取菜单配置数据$menuConfig array(button > array(array(…