כריה של טקסט מדעי היא תהליך עיבוד שפה טבעית (NLP) המיושם על ספרות אקדמית. בהתבסס על מודלים מאומנים מראש בתחום הספציפי, כגון SciBERT (Beltagy et al., 2019) ו-SPECTER (Cohan et al., 2020), הוא מחלץ באופן אוטומטי השערות, מתודולוגיות, ממצאים ותרומות אקדמיות ממאמרים מלאים או תקצירים, ומאפשר אוטומציה של סקירות שיטתיות, ניתוח מגמות מחקר ומיפוי מדעי בקנה מידה גדול.
Beltagy, I., Lo, K., & Cohan, A. (2019). SciBERT: A Pretrained Language Model for Scientific Text. EMNLP 2019. link ↗
Cohan, A., Feldman, S., Beltagy, I., Downey, D., & Weld, D. (2020). SPECTER: Document-Level Representation Learning using Citation-Informed Transformers. ACL 2020. link ↗
איך לצטט עמוד זה
ScholarGate. (2026, June 1). Scientific Text Mining (Scholarly NLP). ScholarGate. https://scholargate.app/he/text-mining/scientific-text-mining