Process / pipeline

Kielen tunnistus (LID)

Kielen tunnistus on luonnollisen kielen käsittelyn tehtävä, jossa havaitaan automaattisesti, millä kielellä teksti on kirjoitettu. Hyödyntäen valmiita työkaluja, kuten langid.py (Lui & Baldwin, 2012) ja Joulin et al. (2017) tehokkaita luokittelijoita, sitä käytetään laajalti monikielisten aineistojen esikäsittelyyn ja suodattamiseen.

Avaa sovelluksessa MethodMindTulossaVideoTulossaDownload slides

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Method map

The neighbourhood of related methods — select a node to explore.

Kielen tunnistus (LID)

N-gram-kielimalli Sentiment Analysis Oikeinkirjoituksen ja ki…Tekstinluokittelu Morfologinen analyysi –…Tekstin segmentointi

Lähteet

Lui, M. & Baldwin, T. (2012). langid.py: An Off-the-shelf Language Identification Tool. Proceedings of the ACL 2012 System Demonstrations. link ↗
Joulin, A., Grave, E., Bojanowski, P. & Mikolov, T. (2017). Bag of Tricks for Efficient Text Classification. Proceedings of the EACL 2017. link ↗

Näin viittaat tähän sivuun

ScholarGate. (2026, June 1). Language Identification (LID). ScholarGate. https://scholargate.app/fi/text-mining/language-identification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

N-gram-kielimalliTekstinlouhinta↔ compare
Sentiment AnalysisTekstinlouhinta↔ compare
Oikeinkirjoituksen ja kieliopin tarkistusTekstinlouhinta↔ compare
TekstinluokitteluTekstinlouhinta↔ compare

Compare side by side →

Tähän viittaavat

Morfologinen analyysi – vartalon ja lemmaksi palautus Tekstin segmentointi

Huomasitko virheen tällä sivulla? Ilmoita siitä tai ehdota korjausta →

Lue koko menetelmä

Method map

Lähteet

Näin viittaat tähän sivuun

Aiheeseen liittyvät menetelmät

Which method?

Tähän viittaavat