ScholarGate
עוזר
Process / pipeline

גיבוב טקסט — זיהוי כפילויות כמעט זהות

גיבוב טקסט הוא תהליך איכותי של קורפוס המזהה ומוחק מסמכים זהים וכמעט זהים מאוספי טקסט גדולים. מבוסס על תיאוריית הדמיון של אנדריי ברודר משנת 1997, הוא משמש באופן נרחב לשיפור איכות מערכי נתונים לאימון מודלים של למידת מכונה, לאינדוקס מנועי חיפוש, ולכל משימת עיבוד שפה טבעית (NLP) שלאחר מכן, המניחה קורפוס שאינו מכיל יתירות.

פתיחה ב-MethodMindבקרובוידאובקרובהורדת מצגת

קראו את השיטה במלואה

לחברים בלבד

התחברו עם חשבון חינמי כדי לקרוא חלק זה.

התחברות

מפת שיטות

סביבת השיטות הקרובות — בחרו צומת כדי לחקור.

מקורות

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

איך לצטט עמוד זה

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/he/text-mining/text-deduplication

איזו שיטה?

הציבו שיטה זו לצד קרובותיה הקרובות וקראו אותן זו לצד זו — הספרייה מניחה את הספרים על השולחן; הבחירה בידיכם.

השוואה זה לצד זה
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). אוחזר בתאריך 2026-06-15 מתוך https://scholargate.app/he/text-mining/text-deduplication · מערך נתונים: https://doi.org/10.5281/zenodo.20539026