ScholarGate
Асистент
Process / pipeline

Извличане на структуриран текст — Извличане на форми и таблици

Извличането на структуриран текст е конвейер за обработка на документи, който автоматично идентифицира и извлича таблици, полета във формуляри и структурирани данни от PDF, HTML и сканирани документи. Той преобразува хетерогенни оформления на документи в машинночетими записи, готови за анализ, и се използва широко в работни процеси за събиране на данни, проекти за дигитализация на документи и изграждане на академични корпуси.

Отворете в MethodMindСкороВидеоСкороDownload slides

Прочетете целия метод

Само за членове

Влезте с безплатен профил, за да прочетете този раздел.

Вход

Method map

The neighbourhood of related methods — select a node to explore.

Източници

  1. Zhu, J. et al. (2021). TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content. ACL. link
  2. Zhong, X. et al. (2020). Image-Based Table Recognition. ECCV. link

Как да цитирате тази страница

ScholarGate. (2026, June 1). Structured Data Extraction (Form & Table Extraction). ScholarGate. https://scholargate.app/bg/text-mining/structured-text-extraction

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateStructured Text Extraction (Structured Data Extraction (Form & Table Extraction)). Извлечено на 2026-06-15 от https://scholargate.app/bg/text-mining/structured-text-extraction · Набор от данни: https://doi.org/10.5281/zenodo.20539026