ScholarGate
Avustaja
Process / pipeline

Kielen tunnistus (LID)

Kielen tunnistus on luonnollisen kielen käsittelyn tehtävä, jossa havaitaan automaattisesti, millä kielellä teksti on kirjoitettu. Hyödyntäen valmiita työkaluja, kuten langid.py (Lui & Baldwin, 2012) ja Joulin et al. (2017) tehokkaita luokittelijoita, sitä käytetään laajalti monikielisten aineistojen esikäsittelyyn ja suodattamiseen.

Avaa sovelluksessa MethodMindTulossaVideoTulossaDownload slides

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Method map

The neighbourhood of related methods — select a node to explore.

Lähteet

  1. Lui, M. & Baldwin, T. (2012). langid.py: An Off-the-shelf Language Identification Tool. Proceedings of the ACL 2012 System Demonstrations. link
  2. Joulin, A., Grave, E., Bojanowski, P. & Mikolov, T. (2017). Bag of Tricks for Efficient Text Classification. Proceedings of the EACL 2017. link

Näin viittaat tähän sivuun

ScholarGate. (2026, June 1). Language Identification (LID). ScholarGate. https://scholargate.app/fi/text-mining/language-identification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Tähän viittaavat

ScholarGateLanguage Identification (Language Identification (LID)). Haettu 2026-06-15 osoitteesta https://scholargate.app/fi/text-mining/language-identification · Aineisto: https://doi.org/10.5281/zenodo.20539026