استخراج اطلاعات
استخراج اطلاعات وظیفه شناسایی خودکار اطلاعات ساختاریافته — موجودیتها، روابط، و رویدادها — در متنهای بدون ساختار زبان طبیعی است.
Definition
استخراج اطلاعات با شناسایی و طبقهبندی اشارهها به موجودیتها، روابط بین آنها، و رویدادهایی که در آنها شرکت میکنند، متن بدون ساختار را به نمایشهای ساختاریافته تبدیل میکند، که اغلب برای پر کردن یک پایگاه داده یا پایگاه دانش است.
Scope
این موضوع شامل استخراج حقایق ساختاریافته از متن میشود: شناسایی موجودیت نامگذاری شده، استخراج رابطه، استخراج رویداد، حل همارجاعی، و پر کردن الگوها یا پایگاههای دانش. این موضوع به رویکردهای مبتنی بر قانون، برچسبگذاری توالی آماری، و رویکردهای نظارتشده و نظارتشده از راه دور، و ارزیابی استخراج با دقت و بازیابی میپردازد. روشهای کلی یادگیری ماشین که برای آموزش استخراجکنندهها استفاده میشوند، به زیرشاخه یادگیری ماشین تعلق دارند؛ در اینجا تأکید بر وظایف استخراج و چالشهای زبانی آنها است.
Core questions
- چگونه اشارهها به موجودیتهایی مانند افراد، سازمانها و مکانها در متن شناسایی و طبقهبندی میشوند؟
- چگونه روابط بین موجودیتها شناسایی و استخراج میشوند؟
- چگونه رویدادها و شرکتکنندگان آنها شناسایی میشوند و چگونه همارجاعی حل میشود؟
- عملکرد استخراج چگونه ارزیابی میشود و چه مصالحههایی بین دقت و بازیابی به وجود میآید؟
Key concepts
- شناسایی موجودیت نامگذاری شده
- استخراج رابطه
- استخراج رویداد
- حل همارجاعی
- برچسبگذاری توالی BIO
- پر کردن الگو
- پر کردن پایگاه دانش
- دقت و بازیابی
Key theories
- شناسایی موجودیت نامگذاری شده به عنوان برچسبگذاری توالی
- شناسایی اشارههای موجودیت معمولاً به عنوان برچسبگذاری هر نشانه با یک برچسب (به عنوان مثال، با استفاده از طرح BIO) تعریف میشود که توسط مدلهای توالی که از زمینه برای علامتگذاری بازهها و انواع آنها استفاده میکنند، حل میشود.
- استخراج رابطه و رویداد
- فراتر از موجودیتها، استخراج اطلاعات نحوه ارتباط موجودیتها و رویدادهای رخ داده را شناسایی میکند و الگوهای ساختاریافته را پر میکند؛ این چارچوب وظیفهمحور توسط کنفرانسهای درک پیام متبلور شد.
- پر کردن پایگاه دانش
- موجودیتها و روابط استخراجشده میتوانند برای ساخت یا گسترش یک پایگاه دانش، پیوند دادن اشارهها به موجودیتهای متعارف و جمعآوری حقایق از مجموعههای بزرگ متنی، تجمیع شوند.
Clinical relevance
استخراج اطلاعات متن را به دادههای قابل پرسوجو برای کاربردهایی مانند کاوش ادبیات زیستپزشکی، تحلیلهای مالی و خبری، ساخت نمودارهای دانش، و پر کردن پایگاههای داده از اسناد تبدیل میکند و حجم زیادی از متن بدون ساختار را برای سیستمهای پاییندستی قابل استفاده میسازد.
History
استخراج اطلاعات توسط کنفرانسهای درک پیام (MUC) در اواخر دهه 1980 و 1990 شکل گرفت، که وظایفی مانند شناسایی موجودیت نامگذاری شده و پر کردن الگو را تعریف کردند و ارزیابی استاندارد شده را معرفی نمودند. این حوزه از قوانین دستساز به مدلهای توالی آماری و سپس روشهای عصبی حرکت کرد، در حالی که ساختار وظیفه خود را حفظ نمود.
Key figures
- Ralph Grishman
- Beth Sundheim
- Christopher D. Manning
- Daniel Jurafsky
Related topics
Seminal works
- grishman1996
- jurafsky2023
Frequently asked questions
- شناسایی موجودیت نامگذاری شده چیست؟
- شناسایی موجودیت نامگذاری شده وظیفه یافتن و طبقهبندی بخشهایی از متن است که به موجودیتهای دنیای واقعی مانند افراد، سازمانها، مکانها و تاریخها اشاره دارند. این معمولاً اولین گام در استخراج اطلاعات است، زیرا بسیاری از روابط و رویدادها بر اساس این موجودیتها بیان میشوند.
- استخراج اطلاعات چگونه ارزیابی میشود؟
- استخراج معمولاً با دقت (چه کسری از موارد استخراج شده صحیح هستند) و بازیابی (چه کسری از موارد صحیح استخراج شدهاند) ارزیابی میشود که اغلب در یک معیار F ترکیب میشوند. این نشاندهنده مصالحه بین استخراج بیش از حد کم و استخراج اطلاعات نادرست است.