Technologien zum Testen des Gesamtdiktats: Was kann verbessert werden?

Ich bin in der Jury der World AI & Data Challenge... Dies ist ein solcher internationaler Wettbewerb für Technologieentwickler, um verschiedene soziale Probleme zu lösen, wie z. B. die Bekämpfung der Armut, die Unterstützung von Menschen mit Hör- und Sehbehinderungen, die Verbesserung des Feedbacks zwischen Menschen und Regierungsorganisationen usw. Jetzt ist die zweite Phase des Wettbewerbs im Gange, die bis Oktober dauern wird. Im Rahmen dieser Phase wählen wir die besten Lösungen für die weitere Umsetzung von Projekten aus. Da wir bei ABBYY viel mit Texten und ihrer Bedeutung arbeiten, war ich am meisten daran interessiert, die Texte im Rahmen des Total Dictation-Projekts zu überprüfen. Verwenden wir dieses Problem als Beispiel, um herauszufinden, warum die Verarbeitung natürlicher Sprache einer der am meisten unterschätzten Bereiche des modernen maschinellen Lernens ist, und diskutieren wir, warum selbst bei der Überprüfung eines Diktats alles „etwas komplizierter ist, als es scheint“. Und natürlich interessanter.



Also die Aufgabe: einen Algorithmus zur Überprüfung des "Gesamtdiktats" zu erstellen. Es scheint, was könnte einfacher sein? Es gibt richtige Antworten, es gibt Texte der Teilnehmer: nimm es und mach es. Jeder kann Linien vergleichen. Und hier beginnt das Interessante.



Solche unterschiedlichen Kommas; oder Semikolons?



Natürliche Sprache ist eine komplexe Sache, die oft mehr als eine Interpretation hat. Selbst bei einer Aufgabe wie der Überprüfung eines Diktats (bei der es auf den ersten Blick die einzig richtige Lösung gibt) muss von Anfang an berücksichtigt werden, dass es neben der des Autors möglicherweise auch andere richtige Optionen gibt. Darüber hinaus haben die Organisatoren des Wettbewerbs sogar darüber nachgedacht: Sie haben mehrere akzeptable Schreibweisen. Zumindest manchmal. Das Wichtigste dabei ist, dass die Compiler wahrscheinlich nicht alle richtigen Optionen angeben können. Daher sollten die Teilnehmer des Wettbewerbs möglicherweise über ein Modell nachdenken, das auf einem großen Korpus von Texten vorab trainiert wurde, die nicht direkt mit dem Diktat zusammenhängen. Abhängig vom Verständnis des Kontexts kann eine Person am Ende ein Komma oder kein Semikolon setzen. In einigen Fällen ist alles möglich: mit einem Doppelpunkt, einem Bindestrich (oder sogar Klammern).



Die Tatsache, dass es sich um ein Diktat handelt und nicht um einen Aufsatz, der bewertet werden muss, ist kein Fehler, sondern eine Funktion. Automatische Bewertungssysteme für Aufsätze sind in den USA sehr beliebt. 21 Staaten verwenden automatisierte Essay-Proofing-Lösungen für den GRE. Erst kürzlich wurde herausgefunden , dass diese Systeme längeren Texten, in denen komplexere Vokabeln verwendet werden, gute Noten verleihen (auch wenn der Text selbst bedeutungslos ist). Wie hast du das herausgefunden? MIT-Studenten entwickelten ein spezielles Programm für den BABEL-Generator (Basic Automatic BS Essay Language), mit dem automatisch Zeichenfolgen komplexer Wörter generiert wurden. Automatisierte Systeme bewerteten diese "Aufsätze" sehr hoch. Das Testen moderner Systeme auf Basis maschinellen Lernens ist ein Vergnügen. Ein weiteres ebenso heißes Beispiel: der ehemalige MIT-Professor Les Perelmanbot das E-Rater-System von ETS an, das die GRE- und TOEFL-Prüfungen erstellt und benotet, um den 5000-Wörter-Aufsatz von Noam Chomsky zu überprüfen. Das Programm fand 62 nicht vorhandene Grammatikfehler und 9 fehlende Kommas. Schlussfolgerung - Algorithmen funktionieren noch nicht gut mit Bedeutung. Weil wir selbst sehr schlecht definieren können, was es ist. Die Erstellung eines Algorithmus, der das Diktat überprüft, hat einen angewandten Sinn, aber diese Aufgabe ist nicht so einfach, wie es scheint. Und hier geht es nicht nur um die Mehrdeutigkeit der richtigen Antwort, über die ich hier gesprochen habe, sondern auch darum, dass das Diktat von einer Person diktiert wird.



Die Persönlichkeit des Diktators



Diktat ist ein komplexer Prozess. Die Art und Weise, wie der „Diktator“ den Text liest - wie die Organisatoren des gesamten Diktats scherzhaft diejenigen nennen, die ihn ausführen - kann die endgültige Qualität der Arbeit beeinflussen. Ein ideales Korrekturlesesystem würde die Ergebnisse der Autoren mit der Qualität des Diktats unter Verwendung von Text zu Sprache korrelieren. Darüber hinaus werden ähnliche Lösungen bereits in der Bildung eingesetzt. Zum Beispiel Third Space LearningIst ein System, das von Wissenschaftlern des University College London entwickelt wurde. Das System verwendet die Spracherkennung, analysiert, wie der Lehrer den Unterricht durchführt, und gibt auf der Grundlage dieser Informationen Empfehlungen zur Verbesserung des Lernprozesses. Wenn ein Lehrer beispielsweise zu schnell oder zu langsam, leise oder laut spricht, sendet ihm das System eine automatische Benachrichtigung. Übrigens kann der Algorithmus anhand der Stimme des Schülers feststellen, dass er das Interesse verliert und gelangweilt ist. Verschiedene Diktatoren können die Endergebnisse des Diktats für verschiedene Teilnehmer beeinflussen. Es gibt eine Ungerechtigkeit, die durch was beseitigt werden kann? Recht! Diktator für künstliche Intelligenz! Bereue, unsere Tage sind gezählt. Okay, im Ernst, online können Sie einfach jedem den gleichen Soundtrack geben oder eine Bewertung der Qualität des "Diktators" in den Algorithmus einfügen, egal wie aufrührerisch er klingt. Jene,Wer schneller und weniger klar diktiert wurde, kann auf zusätzliche Punkte "für die Schädlichkeit" zählen. Wie auch immer, wenn wir eine Rede zum Text haben, fällt uns eine andere Idee ein.



Roboter und Mensch: Wer wird das Diktat besser schreiben?



Wenn wir in der Sendung eine Tonerkennung durchführen, ist es selbstverständlich, einen virtuellen Teilnehmer am Diktat zu erstellen. Es wäre cool, die Erfolge von KI und Menschen zu vergleichen, zumal ähnliche Experimente in verschiedenen Bildungsdisziplinen bereits weltweit aktiv durchgeführt werden. Also, in China im Jahr 2017 verabschiedete AI mit dem Staatsexamen „Gaokao“ in der Stadt Chengdu - das ist etwas wie die russischen Einheitliche Staatsexamen ist. Er erzielte 105 von 150 möglichen Punkten - das heißt, er bestand die Probanden mit einer soliden "Drei". Es ist erwähnenswert, dass, wie beim Problem „Total Dictation“, das Schwierigste für den Algorithmus das Verstehen der Sprache war - in diesem Fall Chinesisch. In Russland hat die Sberbank im vergangenen Jahr durchgeführtWettbewerbe zur Entwicklung von Algorithmen zum Bestehen von Tests in russischer Sprache. Das Unified State Exam bestand aus Tests und einem Aufsatz zu einem bestimmten Thema. Tests für Roboter wurden mit einem erhöhten Grad an Komplexität zusammengestellt und bestanden aus drei Schritten: direktes Ausführen der Aufgabe, Hervorheben von Beispielen gemäß den vorgegebenen Regeln und Formulierungen sowie korrektes Aufzeichnen der Antwort.



Kehren wir von der Diskussion darüber, was noch getan werden kann, zum Problem des Diktats zurück.



Fehlerzuordnung



Die Veranstalter des Wettbewerbs fordern unter anderem eine Heatmap mit Fehlern an. Tools wie Heatmap zeigen, wo und wie oft Menschen falsch liegen. Es ist logisch, dass sie häufiger an schwierigen Orten Fehler machen. In diesem Sinne können Sie zusätzlich zur Diskrepanz mit den Referenzoptionen eine Heatmap verwenden, die auf den Diskrepanzen anderer Benutzer basiert. Eine solche kollektive Validierung der Ergebnisse des jeweils anderen ist einfach zu implementieren, kann jedoch die Qualität der Verifizierung erheblich verbessern.



Teilweise ähnliche Statistiken "Total Dictation" werden bereits gesammelt, aber manuell mit Hilfe von Freiwilligen erstellt. Zum Beispiel dank ihrer ArbeitWir haben gelernt, dass vor allem Benutzer Fehler in den Worten "langsam", "zu viel", "geplant" machen. Das schnelle und effiziente Sammeln solcher Daten wird jedoch umso schwieriger, je mehr Teilnehmer am Diktat teilnehmen. Mehrere Bildungsplattformen verwenden bereits ähnliche Tools. Beispielsweise verwendet eine der beliebtesten Anwendungen zum Erlernen von Fremdsprachen solche Technologien, um den Unterricht zu optimieren und zu personalisieren. Zu diesem Zweck entwickelten sie ein Modell, dessen Aufgabe es ist, die Häufigkeitskombinationen von Fehlern von Millionen von Benutzern zu analysieren. Dies hilft vorherzusagen, wie schnell ein Benutzer ein bestimmtes Wort vergessen kann. Die Komplexität des untersuchten Themas wird ebenfalls berücksichtigt.



Im Allgemeinen, wie mein Vater sagt: „Alle Aufgaben sind in Bullshit und Deaf unterteilt. Bullshit - das sind Aufgaben, die bereits gelöst wurden oder noch nicht gelöst wurden. Gehörlose sind Aufgaben, die Sie gerade lösen. " Selbst um das Problem der Textvalidierung herum können Sie beim maschinellen Lernen viele Fragen stellen und eine Reihe von Add-Ons erstellen, die die Erfahrung des Endbenutzers qualitativ verändern können. Wir werden herausfinden, was die Teilnehmer der World AI & Data Challenge bis Ende des Jahres tun werden.



All Articles