ScholarGate
دستیار

استخراج اطلاعات

استخراج اطلاعات وظیفه شناسایی خودکار اطلاعات ساختاریافته — موجودیت‌ها، روابط، و رویدادها — در متن‌های بدون ساختار زبان طبیعی است.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

استخراج اطلاعات با شناسایی و طبقه‌بندی اشاره‌ها به موجودیت‌ها، روابط بین آن‌ها، و رویدادهایی که در آن‌ها شرکت می‌کنند، متن بدون ساختار را به نمایش‌های ساختاریافته تبدیل می‌کند، که اغلب برای پر کردن یک پایگاه داده یا پایگاه دانش است.

Scope

این موضوع شامل استخراج حقایق ساختاریافته از متن می‌شود: شناسایی موجودیت نام‌گذاری شده، استخراج رابطه، استخراج رویداد، حل هم‌ارجاعی، و پر کردن الگوها یا پایگاه‌های دانش. این موضوع به رویکردهای مبتنی بر قانون، برچسب‌گذاری توالی آماری، و رویکردهای نظارت‌شده و نظارت‌شده از راه دور، و ارزیابی استخراج با دقت و بازیابی می‌پردازد. روش‌های کلی یادگیری ماشین که برای آموزش استخراج‌کننده‌ها استفاده می‌شوند، به زیرشاخه یادگیری ماشین تعلق دارند؛ در اینجا تأکید بر وظایف استخراج و چالش‌های زبانی آن‌ها است.

Core questions

  • چگونه اشاره‌ها به موجودیت‌هایی مانند افراد، سازمان‌ها و مکان‌ها در متن شناسایی و طبقه‌بندی می‌شوند؟
  • چگونه روابط بین موجودیت‌ها شناسایی و استخراج می‌شوند؟
  • چگونه رویدادها و شرکت‌کنندگان آن‌ها شناسایی می‌شوند و چگونه هم‌ارجاعی حل می‌شود؟
  • عملکرد استخراج چگونه ارزیابی می‌شود و چه مصالحه‌هایی بین دقت و بازیابی به وجود می‌آید؟

Key concepts

  • شناسایی موجودیت نام‌گذاری شده
  • استخراج رابطه
  • استخراج رویداد
  • حل هم‌ارجاعی
  • برچسب‌گذاری توالی BIO
  • پر کردن الگو
  • پر کردن پایگاه دانش
  • دقت و بازیابی

Key theories

شناسایی موجودیت نام‌گذاری شده به عنوان برچسب‌گذاری توالی
شناسایی اشاره‌های موجودیت معمولاً به عنوان برچسب‌گذاری هر نشانه با یک برچسب (به عنوان مثال، با استفاده از طرح BIO) تعریف می‌شود که توسط مدل‌های توالی که از زمینه برای علامت‌گذاری بازه‌ها و انواع آن‌ها استفاده می‌کنند، حل می‌شود.
استخراج رابطه و رویداد
فراتر از موجودیت‌ها، استخراج اطلاعات نحوه ارتباط موجودیت‌ها و رویدادهای رخ داده را شناسایی می‌کند و الگوهای ساختاریافته را پر می‌کند؛ این چارچوب وظیفه‌محور توسط کنفرانس‌های درک پیام متبلور شد.
پر کردن پایگاه دانش
موجودیت‌ها و روابط استخراج‌شده می‌توانند برای ساخت یا گسترش یک پایگاه دانش، پیوند دادن اشاره‌ها به موجودیت‌های متعارف و جمع‌آوری حقایق از مجموعه‌های بزرگ متنی، تجمیع شوند.

Clinical relevance

استخراج اطلاعات متن را به داده‌های قابل پرس‌وجو برای کاربردهایی مانند کاوش ادبیات زیست‌پزشکی، تحلیل‌های مالی و خبری، ساخت نمودارهای دانش، و پر کردن پایگاه‌های داده از اسناد تبدیل می‌کند و حجم زیادی از متن بدون ساختار را برای سیستم‌های پایین‌دستی قابل استفاده می‌سازد.

History

استخراج اطلاعات توسط کنفرانس‌های درک پیام (MUC) در اواخر دهه 1980 و 1990 شکل گرفت، که وظایفی مانند شناسایی موجودیت نام‌گذاری شده و پر کردن الگو را تعریف کردند و ارزیابی استاندارد شده را معرفی نمودند. این حوزه از قوانین دست‌ساز به مدل‌های توالی آماری و سپس روش‌های عصبی حرکت کرد، در حالی که ساختار وظیفه خود را حفظ نمود.

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Christopher D. Manning
  • Daniel Jurafsky

Related topics

Seminal works

  • grishman1996
  • jurafsky2023

Frequently asked questions

شناسایی موجودیت نام‌گذاری شده چیست؟
شناسایی موجودیت نام‌گذاری شده وظیفه یافتن و طبقه‌بندی بخش‌هایی از متن است که به موجودیت‌های دنیای واقعی مانند افراد، سازمان‌ها، مکان‌ها و تاریخ‌ها اشاره دارند. این معمولاً اولین گام در استخراج اطلاعات است، زیرا بسیاری از روابط و رویدادها بر اساس این موجودیت‌ها بیان می‌شوند.
استخراج اطلاعات چگونه ارزیابی می‌شود؟
استخراج معمولاً با دقت (چه کسری از موارد استخراج شده صحیح هستند) و بازیابی (چه کسری از موارد صحیح استخراج شده‌اند) ارزیابی می‌شود که اغلب در یک معیار F ترکیب می‌شوند. این نشان‌دهنده مصالحه بین استخراج بیش از حد کم و استخراج اطلاعات نادرست است.

Methods for this concept

Related concepts