Machine learningdocument-image-recognition

Handwritten Text Recognition for Archives

Handwritten text recognition for archives converts digital images of manuscript pages into searchable, machine-readable text, unlocking the vast holdings of handwritten material that optical character recognition, designed for print, cannot read. Exemplified by platforms such as Transkribus, developed in the READ project, modern HTR uses deep neural networks trained on transcribed examples to recognize the highly variable scripts of letters, registers, charters, and notebooks across centuries and languages. The pipeline first analyzes page layout and segments the image into text regions and lines, then a recurrent or transformer-based recognizer decodes each line into characters, typically using connectionist temporal classification to align pixels with text without needing character-level segmentation. Crucially, recognition models are trained and improved on ground-truth transcriptions supplied by scholars, so accuracy rises as more material is annotated. By making manuscripts machine-readable at scale, HTR is the gateway technology of digital archival history, feeding full-text search, named-entity recognition, and large-corpus text mining of sources that were previously legible only page by page.

在 MethodMind 中打开即将推出应用、比较、获取指导

工具与资源

下载幻灯片

学习与探索

视频即将推出

阅读完整方法

仅限会员

使用免费账户登录即可阅读本节。

方法图谱

相关方法的邻域——选择一个节点以展开探索。

Handwritten Text Recognition for Archives

Historical Corpus Text M…Historical GIS Historical Named-Entity…

来源

Muehlberger, G., Seaward, L., Terras, M., et al. (2019). Transforming scholarship in the archives through handwritten text recognition: Transkribus as a case study. Journal of Documentation, 75(5), 954-976. DOI: 10.1108/JD-07-2018-0114 ↗
Moretti, F. (2013). Distant Reading. Verso. ISBN: 9781781680841

如何引用本页

ScholarGate. (2026, June 23). Handwritten Text Recognition for Archival Manuscripts. ScholarGate. https://scholargate.app/zh/digital-history/handwritten-text-recognition-archives

选用哪种方法？

将本方法与其最相近的同类并置，并排研读——本馆将书籍铺陈于案上，取舍则由您定夺。

Historical Corpus Text MiningDigital History↔ 比较
Historical GISHistorical Geography↔ 比较
Historical Named-Entity RecognitionDigital History↔ 比较

并排比较 →

被引用于

Historical Corpus Text Mining Historical Named-Entity Recognition

相似方法

Historical Named-Entity Recognition Digital Historical Archival Research Historical Corpus Text Mining Structured Text Extraction Palaeographic Dating Historical Archival Research Archival Content Analysis Machine Translation