统计编程语言
统计编程语言是围绕数据分析设计的计算环境,为统计学家提供向量化操作、数据框、建模抽象和可扩展的包系统。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
统计编程语言是一种编程语言和环境,其设计以数据分析为中心,为向量化数值计算、统计数据结构、模型规范以及分析方法作为包的分发提供原生支持。
Scope
本主题涵盖为统计学构建的语言的设计原则、S语言及其后继者R、科学Python生态系统,以及对数据工作至关重要的语言特性:向量化、用于表格和缺失数据的数据结构、公式和建模接口,以及包生态系统。具体的算法不在讨论范围之内。
Core questions
- 哪些语言特性使编程语言非常适合数据分析?
- S语言如何塑造现代统计环境的设计?
- 向量化和数据框抽象如何支持统计工作?
- 包生态系统如何通过统计方法扩展语言?
Key concepts
- 向量化
- 数据框
- 公式接口
- 包生态系统
- 函数式和面向对象特性
- 交互式环境
Key theories
- 数据分析的语言设计
- 统计语言提供向量化操作、用于表格和缺失数据的丰富数据结构,以及公式等建模接口,以便能够简洁地表达分析意图,并通过用户贡献的包进行扩展。
- S到R的传承
- S语言引入了用于数据分析的交互式、面向对象环境,R将其重新实现为开源软件,其包存储库使其成为一个社区驱动的统计方法平台。
Clinical relevance
统计语言的选择和掌握方式决定了分析的编写、验证和共享方式;R和Python的开放包生态系统使数据驱动科学领域的从业者能够立即使用前沿方法。
History
John Chambers及其同事于1970年代后期在贝尔实验室创建了S语言;Ihaka和Gentleman于1996年发布了R作为其开源后继者,其包存储库以及科学Python堆栈的并行兴起使它们成为统计计算的主导环境。
Key figures
- John Chambers
- Ross Ihaka
- Robert Gentleman
- Hadley Wickham
Related topics
Seminal works
- chambers2008
- ihaka1996
Frequently asked questions
- 什么使一种语言成为统计编程语言而非通用语言?
- 它将数据分析构建到核心中:向量化数学、具有缺失值处理的表格数据结构、模型规范语法以及统计包生态系统。通用语言可以进行统计,但这些语言是为此而设计的。
- 为什么这些语言强调向量化?
- 一次性对整个向量和矩阵进行操作使代码既简洁又快速,因为繁重的计算在优化的编译例程中运行。它也符合统计操作在数据上自然表达的方式。