Tại sao tôi không thể chỉ tải xuống một đống văn bản lớn và phân tích chúng?

Bởi vì thành phần của đống đó quyết định kết quả của bạn. Các bộ sưu tập có sẵn không đồng đều và thiên vị theo những gì đã được số hóa, và OCR không được sửa lỗi sẽ gây ra sai sót. Việc lập tài liệu về lựa chọn, nguồn gốc và quá trình xử lý là điều cần thiết để diễn giải và tin cậy bất kỳ phát hiện điện toán nào.

Xây dựng và Quản lý Corpus

Mọi phân tích điện toán đều phụ thuộc vào một tập hợp văn bản (corpus), và không có corpus nào là trung lập. Các lựa chọn về nội dung cần đưa vào, cách làm sạch và cấu trúc văn bản, cũng như siêu dữ liệu (metadata) được đính kèm sẽ định hình mọi kết quả sau đó — khiến việc xây dựng corpus trở thành một hành động học thuật theo đúng nghĩa của nó.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Việc tập hợp, xử lý, lập tài liệu và duy trì các bộ sưu tập văn bản được sử dụng để phân tích điện toán một cách có nguyên tắc, cùng với sự chú ý phê phán đến cách các bộ sưu tập đó được lựa chọn và định hình.

Scope

Bao gồm việc xây dựng và quản lý các tập hợp văn bản để phân tích điện toán: lựa chọn và lấy mẫu, làm sạch và chuẩn hóa, nhận dạng ký tự quang học (OCR) và phiên âm, siêu dữ liệu và tài liệu. Bao gồm sự phản ánh phê phán về tính đại diện, thiên vị và bản chất được xây dựng của các tập dữ liệu nhân văn. Được xử lý ở đây từ góc độ nhân văn số thay vì ngôn ngữ học corpus.

Core questions

Một corpus đại diện cho một kho tàng văn học hoặc lịch sử có ý nghĩa gì?
Các quyết định về làm sạch, OCR và chuẩn hóa ảnh hưởng đến phân tích tiếp theo như thế nào?
Một corpus có thể tái sử dụng cần những siêu dữ liệu và tài liệu nào?
Văn bản của ai đang bị thiếu trong các bộ sưu tập kỹ thuật số hiện có, và tại sao?

Key concepts

Lấy mẫu
Tính đại diện
OCR
Chuẩn hóa
Nguồn gốc
Tài liệu

Key theories

Dữ liệu được xây dựng, không phải có sẵn: Gitelman và các cộng sự đã lập luận rằng dữ liệu luôn được tạo ra — được chọn lọc, làm sạch, đóng khung — vì vậy 'dữ liệu thô' là một tên gọi sai lầm và mọi tập dữ liệu đều mang những giả định về cách xây dựng của nó.
Tính đại diện và corpus văn học: Underwood đã thảo luận về cách thành phần và sự thiên vị của các bộ sưu tập kỹ thuật số định hình các tuyên bố về sự thay đổi văn học, khiến việc lấy mẫu và nguồn gốc trở thành những mối quan tâm phương pháp luận trung tâm.
Các bộ sưu tập như những lập luận học thuật: Bode lập luận rằng các bộ sưu tập kỹ thuật số làm nền tảng cho lịch sử văn học điện toán tự chúng là những cấu trúc diễn giải, và các học giả phải giải thích cách một bộ sưu tập được xây dựng.

History

Khi phân tích văn bản điện toán phát triển, các học giả ngày càng nhận ra rằng kết quả phụ thuộc vào các corpus đằng sau chúng. Tập sách năm 2013 của Gitelman đã thách thức ý tưởng về dữ liệu trung lập; Bode (2018) và Underwood (2019) đã làm rõ việc xây dựng và sự thiên vị của các bộ sưu tập văn học, thiết lập việc quản lý corpus như một mối quan tâm về phương pháp luận và phê bình.

Debates

Tính đại diện so với tính khả dụng: Các corpus thường được xây dựng từ bất cứ thứ gì đã được số hóa, điều này có xu hướng thiên về một số ngôn ngữ, thời kỳ và các tác phẩm kinh điển nhất định, đặt ra câu hỏi về mức độ khái quát hóa của các kết luận.

Key figures

Ted Underwood
Katherine Bode
Lisa Gitelman

Seminal works

gitelman2013
bode2018
underwood2019

Frequently asked questions

Tại sao tôi không thể chỉ tải xuống một đống văn bản lớn và phân tích chúng?: Bởi vì thành phần của đống đó quyết định kết quả của bạn. Các bộ sưu tập có sẵn không đồng đều và thiên vị theo những gì đã được số hóa, và OCR không được sửa lỗi sẽ gây ra sai sót. Việc lập tài liệu về lựa chọn, nguồn gốc và quá trình xử lý là điều cần thiết để diễn giải và tin cậy bất kỳ phát hiện điện toán nào.