Bestimmen Sie die Sprache des Textes. Komplexer Fall



Bildquelle: AnnaElli



Das Antiplagiat-System arbeitet mit Texten in verschiedenen Sprachen. Die meisten zur Überprüfung eingereichten Beiträge sind in russischer, englischer oder kasachischer Sprache verfasst. Jetzt enthält der Antiplagiat-Index Dokumente in mehr als 50 Sprachen.



15 von ihnen haben volle UnterstĂĽtzung in allen Phasen der Dokumentenverarbeitung. In naher Zukunft planen wir, diese Liste ernsthaft zu erweitern. Unsere unermĂĽdlichen Forscher lernen, auch aus fantastischen Sprachen zu ĂĽbersetzen . Textsprachen sind in mehreren Phasen der Dokumentverarbeitung wichtig.



Sie müssen die Sprache für die folgenden Vorgänge kennen:



  • Aufteilen von Text in Wörter;
  • Suche und Korrekturen fĂĽr technische Problemumgehungen;
  • Silbentrennung zusammenfĂĽhren;
  • Umgang mit Apostrophen und anderen Satzzeichen;
  • Berechnung von Textstatistiken;
  • Suche nach Anleihen.


, . , , «». . , – .





, NTextCat / CLD3 /CLD2. CLD2 :



  • (~200 /c);
  • ;
  • ( );
  • ; , , , ;
  • C# ;
  • ( 80).




, , .





, , . . , :



  • / (, , ) “” ;
  • ;
  • , , …;
  • — , , .


CLD2





, – . , , , . . , : , .



, CLD2, . CLD2, .





: ( ).



1: CLD2.



2: , 4.



3: CLD2.



4: .



: , , . , , , « ».



, ( 2)



, . 1-2 (CLD2 ). , . , , , , , - CLD2.



… ( 3)



3.0: , , , .



3.1:



:



  1. , ( , .. ), , .
  2. CLD2 .


3.2: , . , , , .

3.3: . CLD2 .





( 4)



, , , . . , , - :



  1. , ;
  2. , ;
  3. .


( ). -. . , , . , . : « «-27».» 4 : «», «"», «», «-27".».





, , , . . , «» , . , 1-2 , . . , . , , . — , , , , : .



, .





, , . . , , , .



- . , , , . — , . . ( 4 ) , , .



, , - . , .





. CLD2:





, . — . — , , .



, CLD2.



, , .





, .





, «» «» , «» — «» – , «Jim» — «him» – , «» , , . CLD2 , .



:





«» . , ( CLD2) , , .





CLD2 , . . . , — .





?



, , . : , , , , . ( !). , «»: , . , , . ( ). , , . , .





– . – . – . .



, . -, CLD2 , 5. -, , . . , .



, , ...




All Articles