词汇和语料库资源
经验计算语言学所依赖的数据和知识库:文本语料库、词汇数据库和本体、词结构计算处理以及丰富标注的树库。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
词汇和语料库资源是语言数据的结构化集合——文本、词典和标注——旨在支持经验分析和语言处理系统的训练。
Scope
涵盖语言资源的构建、管理和使用——平衡语料库和网络语料库、WordNet等词汇语义数据库、计算形态学和词典,以及标注树库。它涉及语料库设计、代表性、标注标准以及资源在系统训练和评估中的作用。消耗这些资源的算法建模在其他领域中有所涵盖。
Sub-topics
Core questions
- 语料库如何设计以实现代表性和平衡性?
- 词义如何组织成机器可读的词汇数据库?
- 在形态丰富的语言中,词结构如何在计算上表示?
- 为什么标注树库对数据驱动的语言学至关重要?
Key concepts
- 语料库
- 代表性
- 词汇数据库
- WordNet
- 同义词集
- 形态词典
- 树库
- 标注标准
Key theories
- 基于语料库的经验主义
- 一种方法论立场,认为语言概括和系统参数应以大量经证实的用法样本为基础,而非仅仅依靠内省。
- 词汇语义网络
- 将词汇组织成一个由同义关系和上位关系(如WordNet中)连接的词义图,支持从消歧到语义相似性等任务。
History
20世纪90年代向经验方法的转变使语料库和词汇资源成为基础。WordNet提供了一个可重用的词汇语义数据库,像英国国家语料库(British National Corpus)这样的平衡语料库设定了设计标准,而Kilgarriff和Grefenstette的工作则使网络本身作为语言研究的巨大语料库合法化。
Debates
- 平衡语料库与作为语料库的网络
- 关于精心平衡的语料库还是庞大但混乱的网络更能服务于语言学研究;该领域越来越多地同时使用两者,权衡代表性与规模。
Key figures
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
Related topics
Seminal works
- fellbaum1998
- kilgarriff2003
- manning1999
Frequently asked questions
- 一个好的语料库应具备哪些特点?
- 一个好的语料库应足够大以获得可靠的统计数据,并能代表所研究的语言变体,同时对其来源、抽样和任何标注都有清晰的文档说明,以便解释和重现结果。