ScholarGate
アシスタント
Process / pipeline

言語識別(LID)

言語識別とは、テキストがどの言語で書かれているかを自動的に検出する自然言語処理タスクである。langid.py (Lui & Baldwin, 2012) のような既存のツールや、Joulin ら (2017) の効率的な分類器を活用することで、多言語データセットの前処理やフィルタリングに広く利用されている。

MethodMindで開く近日公開動画近日公開Download slides

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

Method map

The neighbourhood of related methods — select a node to explore.

出典

  1. Lui, M. & Baldwin, T. (2012). langid.py: An Off-the-shelf Language Identification Tool. Proceedings of the ACL 2012 System Demonstrations. link
  2. Joulin, A., Grave, E., Bojanowski, P. & Mikolov, T. (2017). Bag of Tricks for Efficient Text Classification. Proceedings of the EACL 2017. link

このページの引用方法

ScholarGate. (2026, June 1). Language Identification (LID). ScholarGate. https://scholargate.app/ja/text-mining/language-identification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

この手法を参照する項目

ScholarGateLanguage Identification (Language Identification (LID)). 2026-06-15に以下より取得 https://scholargate.app/ja/text-mining/language-identification · データセット: https://doi.org/10.5281/zenodo.20539026