ScholarGate
助手

统计软件与计算

统计软件与计算涉及用于实现、共享和可靠大规模运行统计方法的语言、工具和实践。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

统计软件与计算是研究用于在真实数据和硬件上实现和执行统计方法的语言、软件设计、可重现性实践和高性能技术。

Scope

该领域涵盖为数据分析构建的编程语言和环境、使计算分析可重现的实践,以及通过并行和高性能方法使统计计算扩展到大数据集的技术。它侧重于统计计算的工程方面,而非具体的算法,后者在其他领域中有所涵盖。

Sub-topics

Core questions

  • 哪些语言和软件设计特性使统计计算具有表达性和可靠性?
  • 如何使统计分析可重现和可共享?
  • 统计计算如何扩展到大数据和多处理器?
  • 软件实践如何影响统计结果的可信度?

Key theories

数据分析语言
R 和 Python 等环境提供向量化操作、丰富的数据结构和围绕统计工作流设计的包生态系统,从而塑造了分析的表达和扩展方式。
可重现性与规模
可重现研究实践和高性能技术共同决定了分析是否可信、可重复,并可应用于远超单机处理能力的数据集。

Clinical relevance

围绕分析的软件和计算实践决定了其结果是否可以重现、审计和扩展;在大数据和复杂流程的时代,这些工程问题对于得出有效结论的重要性不亚于底层的统计方法。

History

贝尔实验室的 S 语言确立了数据分析交互式环境的模型;其开源继承者 R 和科学 Python 栈占据了主导地位,而不断增长的数据量和对可重现性的关注使计算实践本身成为一个研究领域。

Key figures

  • John Chambers
  • Ross Ihaka
  • Robert Gentleman
  • James Gentle

Related topics

Seminal works

  • chambers2008
  • gentle2009

Frequently asked questions

统计软件真的是统计学的一部分吗?
是的。统计学家开发的方法只有在正确实现和可运行时才有用,因此统计语言的设计、可重现的工作流和可扩展的计算是统计计算不可或缺的一部分。
为什么可重现性变得如此突出?
随着分析变得越来越复杂和数据驱动,结果可能取决于精确的代码、数据版本和计算环境。可重现的实践使得验证、重用和基于已发表的统计工作成为可能。

Methods for this concept

Related concepts