密度估计
密度估计在不假设参数形式的情况下,从样本中重建分布的形状,其中平滑参数控制着细节和噪声之间的权衡。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
密度估计是从样本中估计随机变量概率密度函数的非参数问题,通常通过使用核和带宽平滑经验数据来完成。
Scope
本主题涵盖直方图及其箱宽选择、Parzen-Rosenblatt类型的核密度估计器、核和带宽的选择、均方积分误差的偏差-方差分解、插入法和交叉验证带宽选择、边界效应和自适应带宽、维度灾难以及平滑度类上的极小极大收敛速率。
Core questions
- 核密度估计器如何平滑数据?带宽在其中扮演什么角色?
- 偏差-方差权衡如何决定最佳平滑量?
- 在实践中,如何通过交叉验证或插入规则选择带宽?
- 为什么密度估计在高维空间中变得困难?
Key theories
- 核密度估计
- 在每个数据点放置一个平滑核并进行平均,可以得到密度的平滑估计;带宽控制着核的宽度,从而控制估计的平滑度。
- 偏差-方差权衡和极小极大速率
- 小带宽导致低偏差但高方差,大带宽则相反;最佳带宽平衡两者,由此产生的风险以密度平滑度设定的极小极大速率下降。
Clinical relevance
核密度估计是用于探索数据的平滑分布图、非参数分类器和朴素贝叶斯模型的构建、生存分析中的风险和强度估计以及流行病学和生态学中空间点模式可视化的基础。
History
Rosenblatt于1956年引入了核密度估计器,Parzen于1962年发展了其理论。Silverman于1986年出版的专著使这些方法(包括实用的带宽选择)得到了广泛应用,此后极小极大分析进一步完善了最优性理论。
Key figures
- Murray Rosenblatt
- Emanuel Parzen
- Bernard Silverman
- Larry Wasserman
Related topics
Seminal works
- wasserman2006
Frequently asked questions
- 为什么带宽比核更重要?
- 核形状的选择对准确性影响很小,但带宽直接控制着偏差-方差权衡:过小会导致估计结果尖锐且噪声大,过大则会平滑掉真实特征。
- 密度估计中的维度灾难是什么?
- 随着变量数量的增加,数据变得稀疏,达到给定精度所需的数据量呈爆炸式增长,因此非参数密度估计仅在低维且无额外结构的情况下才可靠。