Effizienteres Pre-Training von NLP-Modellen mit ELECTRA

Jüngste Entwicklungen bei Sprachmodellen vor dem Lernen haben zu bedeutenden Fortschritten bei der Verarbeitung natürlicher Sprache (NLP) geführt und hocheffiziente Modelle wie BERT , RoBERTa , XLNet , ALBERT , T5 und viele mehr hervorgebracht. Diese Methoden, die unterschiedliche Architekturen aufweisen, vereinen sich jedoch in der Idee, große Mengen unbeschrifteter Textdaten zu verwenden, um ein allgemeines Modell des Verständnisses der natürlichen Sprache zu erstellen, das dann weiter trainiert und genau abgestimmt wird, um bestimmte angewandte Probleme wie die Stimmungsanalyse oder den Aufbau von Frage-Antwort-Systemen zu lösen.



Die vorhandenen Vorbereitungsmethoden lassen sich hauptsächlich in zwei Kategorien einteilen:



  • Sprachmodelle (LM) wie GPT , die Text in der Eingabe von links nach rechts verarbeiten und das nächste Wort in einem zuvor definierten Kontext vorhersagen;
  • Maskierte Sprachmodelle (MLM) wie BERT, RoBERTa und ALBERT, die versuchen, die maskierten Wörter des Quelltextes vorherzusagen.


Der Vorteil von MLM besteht darin, dass es bidirektional arbeitet, d.h. "Sehen" Sie den Text auf beiden Seiten des vorhergesagten Tokens, im Gegensatz zu LMs, die nur in eine Richtung zeigen. MLM (und Modelle wie XLNet) haben jedoch auch Nachteile, die sich aus ihrer Aufgabe vor dem Training ergeben: Anstatt jedes Wort der Eingabesequenz vorherzusagen, sagen sie nur einen kleinen maskierten Teil voraus - nur etwa 15%, was die Menge der aus einem Satz empfangenen Informationen verringert.



image3



. () . : (, GPT), . : (, BERT), , .



«ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators» , BERT’, . ELECTRA – , (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) — , , . , ELECTRA , RoBERTa XLNet GLUE, , , ¼ , - SQuAD. ELECTRA , : 1 GPU , (accuracy), GPT, 30 . ELECTRA TensorFlow .





ELECTRA – (replaced token detection, RTD), ( MLM) ( LM). - (generative adversarial network, GAN), ELECTRA «» «» . , , «[MASK]» ( BERT’), RTD , . , , «cooked» «ate». , , . (.. ) , , . , , (15% BERT). RTD , MLM – ELECTRA «» , , .. . , RTD , .. , .



image4



.



, . , , ELECTRA ( BERT- ), . , , , GAN, , , - GAN . . , ( ELECTRA) NLP . .



image1



. MLM , ELECTRA.





ELECTRA c NLP , , , RoBERTa XLNet 25% , .



image2



x , ( FLOPs), y – GLUE. ELECTRA , NLP . , GLUE, T5, , .. ( 10 , RoBERTa).



, ELECTRA-Small, , GPU 4 . , , TPU , ELECTRA-Small GPT, 1/30 .



, , ELECTRA , ELECTRA-Large ( RoBERTa 10% T5). - SQuAD 2.0 (. ) RoBERTa, XLNet ALBERT GLUE. T5-11b GLUE, ELECTRA 30 10% , T5.



image5



ELECTRA-Large SQuAD 2.0 ( ).



ELECTRA



Der Code sowohl für das ELECTRA-Pre-Training als auch für die Feinabstimmung der angewendeten NLP-Aufgaben wie Textklassifizierung, Frage-Antwort-Probleme und Sequenz-Markup wurde im Open Access veröffentlicht . Der Code unterstützt das schnelle Training eines kleinen ELECTRA-Modells auf einer einzelnen GPU. Die Gewichte von vorab trainierten Modellen wie ELECTRA-Large, ELECTRA-Base und ELECTRA-Small werden ebenfalls angegeben. Während ELECTRA nur auf Englisch verfügbar ist, planen die Entwickler in Zukunft, das Modell in anderen Sprachen vorab zu trainieren.



Autoren






All Articles