Process / pipeline

Gestructureerde Tekstextractie — Extractie van Formulieren en Tabellen

Gestructureerde tekstextractie is een documentverwerkingspijplijn die automatisch tabellen, formuliervelden en gestructureerde gegevens identificeert en extraheert uit PDF's, HTML en gescande documenten. Het zet heterogene documentindelingen om in machineleesbare, analyse-klare records en wordt veel gebruikt in workflows voor gegevensverzameling, projecten voor documentdigitalisering en de constructie van academische corpora.

Openen in MethodMindBinnenkortVideoBinnenkortDownload slides

Lees de volledige methode

Alleen voor leden

Inloggen

Method map

The neighbourhood of related methods — select a node to explore.

Gestructureerde Tekstextractie

Informatieverwerving Named Entity Recognition…

Bronnen

Zhu, J. et al. (2021). TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content. ACL. link ↗
Zhong, X. et al. (2020). Image-Based Table Recognition. ECCV. link ↗

Deze pagina citeren

ScholarGate. (2026, June 1). Structured Data Extraction (Form & Table Extraction). ScholarGate. https://scholargate.app/nl/text-mining/structured-text-extraction

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

InformatieverwervingText mining↔ compare
Named Entity Recognition (NER)Text mining↔ compare

Compare side by side →

Een fout op deze pagina gezien? Meld het of stel een correctie voor →

Lees de volledige methode

Method map

Bronnen

Deze pagina citeren

Verwante methoden

Which method?