شناسایی موجودیت نامگذاری شده چیست؟

شناسایی موجودیت نامگذاری شده وظیفه یافتن و طبقهبندی بخشهایی از متن است که به موجودیتهای دنیای واقعی مانند افراد، سازمانها، مکانها و تاریخها اشاره دارند. این معمولاً اولین گام در استخراج اطلاعات است، زیرا بسیاری از روابط و رویدادها بر اساس این موجودیتها بیان میشوند.

استخراج اطلاعات چگونه ارزیابی میشود؟

استخراج معمولاً با دقت (چه کسری از موارد استخراج شده صحیح هستند) و بازیابی (چه کسری از موارد صحیح استخراج شدهاند) ارزیابی میشود که اغلب در یک معیار F ترکیب میشوند. این نشاندهنده مصالحه بین استخراج بیش از حد کم و استخراج اطلاعات نادرست است.

استخراج اطلاعات

استخراج اطلاعات وظیفه شناسایی خودکار اطلاعات ساختاریافته — موجودیت‌ها، روابط، و رویدادها — در متن‌های بدون ساختار زبان طبیعی است.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

استخراج اطلاعات با شناسایی و طبقه‌بندی اشاره‌ها به موجودیت‌ها، روابط بین آن‌ها، و رویدادهایی که در آن‌ها شرکت می‌کنند، متن بدون ساختار را به نمایش‌های ساختاریافته تبدیل می‌کند، که اغلب برای پر کردن یک پایگاه داده یا پایگاه دانش است.

Scope

این موضوع شامل استخراج حقایق ساختاریافته از متن می‌شود: شناسایی موجودیت نام‌گذاری شده، استخراج رابطه، استخراج رویداد، حل هم‌ارجاعی، و پر کردن الگوها یا پایگاه‌های دانش. این موضوع به رویکردهای مبتنی بر قانون، برچسب‌گذاری توالی آماری، و رویکردهای نظارت‌شده و نظارت‌شده از راه دور، و ارزیابی استخراج با دقت و بازیابی می‌پردازد. روش‌های کلی یادگیری ماشین که برای آموزش استخراج‌کننده‌ها استفاده می‌شوند، به زیرشاخه یادگیری ماشین تعلق دارند؛ در اینجا تأکید بر وظایف استخراج و چالش‌های زبانی آن‌ها است.

Core questions

چگونه اشاره‌ها به موجودیت‌هایی مانند افراد، سازمان‌ها و مکان‌ها در متن شناسایی و طبقه‌بندی می‌شوند؟
چگونه روابط بین موجودیت‌ها شناسایی و استخراج می‌شوند؟
چگونه رویدادها و شرکت‌کنندگان آن‌ها شناسایی می‌شوند و چگونه هم‌ارجاعی حل می‌شود؟
عملکرد استخراج چگونه ارزیابی می‌شود و چه مصالحه‌هایی بین دقت و بازیابی به وجود می‌آید؟

Key concepts

شناسایی موجودیت نام‌گذاری شده
استخراج رابطه
استخراج رویداد
حل هم‌ارجاعی
برچسب‌گذاری توالی BIO
پر کردن الگو
پر کردن پایگاه دانش
دقت و بازیابی

Key theories

شناسایی موجودیت نام‌گذاری شده به عنوان برچسب‌گذاری توالی: شناسایی اشاره‌های موجودیت معمولاً به عنوان برچسب‌گذاری هر نشانه با یک برچسب (به عنوان مثال، با استفاده از طرح BIO) تعریف می‌شود که توسط مدل‌های توالی که از زمینه برای علامت‌گذاری بازه‌ها و انواع آن‌ها استفاده می‌کنند، حل می‌شود.
استخراج رابطه و رویداد: فراتر از موجودیت‌ها، استخراج اطلاعات نحوه ارتباط موجودیت‌ها و رویدادهای رخ داده را شناسایی می‌کند و الگوهای ساختاریافته را پر می‌کند؛ این چارچوب وظیفه‌محور توسط کنفرانس‌های درک پیام متبلور شد.
پر کردن پایگاه دانش: موجودیت‌ها و روابط استخراج‌شده می‌توانند برای ساخت یا گسترش یک پایگاه دانش، پیوند دادن اشاره‌ها به موجودیت‌های متعارف و جمع‌آوری حقایق از مجموعه‌های بزرگ متنی، تجمیع شوند.

Clinical relevance

استخراج اطلاعات متن را به داده‌های قابل پرس‌وجو برای کاربردهایی مانند کاوش ادبیات زیست‌پزشکی، تحلیل‌های مالی و خبری، ساخت نمودارهای دانش، و پر کردن پایگاه‌های داده از اسناد تبدیل می‌کند و حجم زیادی از متن بدون ساختار را برای سیستم‌های پایین‌دستی قابل استفاده می‌سازد.

History

استخراج اطلاعات توسط کنفرانس‌های درک پیام (MUC) در اواخر دهه 1980 و 1990 شکل گرفت، که وظایفی مانند شناسایی موجودیت نام‌گذاری شده و پر کردن الگو را تعریف کردند و ارزیابی استاندارد شده را معرفی نمودند. این حوزه از قوانین دست‌ساز به مدل‌های توالی آماری و سپس روش‌های عصبی حرکت کرد، در حالی که ساختار وظیفه خود را حفظ نمود.

Key figures

Ralph Grishman
Beth Sundheim
Christopher D. Manning
Daniel Jurafsky

Seminal works

grishman1996
jurafsky2023

Frequently asked questions

شناسایی موجودیت نام‌گذاری شده چیست؟: شناسایی موجودیت نام‌گذاری شده وظیفه یافتن و طبقه‌بندی بخش‌هایی از متن است که به موجودیت‌های دنیای واقعی مانند افراد، سازمان‌ها، مکان‌ها و تاریخ‌ها اشاره دارند. این معمولاً اولین گام در استخراج اطلاعات است، زیرا بسیاری از روابط و رویدادها بر اساس این موجودیت‌ها بیان می‌شوند.
استخراج اطلاعات چگونه ارزیابی می‌شود؟: استخراج معمولاً با دقت (چه کسری از موارد استخراج شده صحیح هستند) و بازیابی (چه کسری از موارد صحیح استخراج شده‌اند) ارزیابی می‌شود که اغلب در یک معیار F ترکیب می‌شوند. این نشان‌دهنده مصالحه بین استخراج بیش از حد کم و استخراج اطلاعات نادرست است.