統計ソフトウェアと計算
統計ソフトウェアと計算は、統計的手法が確実に、かつ大規模に実装、共有、実行されるための言語、ツール、および実践に関するものです。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
統計ソフトウェアと計算とは、実際のデータとハードウェア上で統計的手法を実装および実行するために使用される言語、ソフトウェア設計、再現性の実践、および高性能技術の研究です。
Scope
この分野は、データ分析のために構築されたプログラミング言語と環境、計算分析を再現可能にする実践、および並列処理や高性能な手法を通じて統計計算を大規模データに拡張させる技術を対象としています。これは、特定のアルゴリズムではなく、統計計算の工学的な側面を扱います。特定のアルゴリズムについては、他の分野でカバーされています。
Sub-topics
Core questions
- 統計計算を表現力豊かで信頼性の高いものにする言語とソフトウェア設計の機能は何ですか?
- 統計分析はどのようにして再現可能で共有可能なものになりますか?
- 統計計算はどのようにして大規模データと多数のプロセッサに拡張されますか?
- ソフトウェアの実践は統計結果の信頼性にどのように影響しますか?
Key theories
- データ分析のための言語
- RやPythonのような環境は、ベクトル化された操作、豊富なデータ構造、および統計的ワークフローを中心に設計されたパッケージエコシステムを提供し、分析の表現方法と拡張方法を形成しています。
- 再現性と規模
- 再現性のある研究実践と高性能技術は、分析が信頼でき、繰り返し可能であり、単一のマシンでは直接処理できないほどはるかに大規模なデータセットに適用できるかどうかを共に決定します。
Clinical relevance
分析を取り巻くソフトウェアと計算の実践は、その結果が再現可能であるか、監査可能であるか、そして拡張可能であるかを決定します。大規模データと複雑なパイプラインの時代において、これらの工学的な懸念は、根底にある統計的手法と同様に、妥当な結論を導き出す上で重要です。
History
ベル研究所のS言語は、データ分析のための対話型環境のモデルを確立しました。そのオープンソースの後継であるRと科学的なPythonスタックが主流となり、データ量の増加と再現性への懸念から、計算実践はそれ自体が研究分野として確立されました。
Key figures
- John Chambers
- Ross Ihaka
- Robert Gentleman
- James Gentle
Related topics
Seminal works
- chambers2008
- gentle2009
Frequently asked questions
- 統計ソフトウェアは本当に統計学の一部ですか?
- はい。統計学者が開発する手法は、正しく実装され、実行可能である場合にのみ有用であるため、統計言語の設計、再現可能なワークフロー、およびスケーラブルな計算は、統計計算の不可欠な部分です。
- なぜ再現性がこれほど重要になったのですか?
- 分析がより複雑になり、データ駆動型になるにつれて、結果は正確なコード、データバージョン、および計算環境に依存する可能性があります。再現性のある実践は、公開された統計作業を検証し、再利用し、その上に構築することを可能にします。