Das Verständnis von sequentiell organisierten Daten - sei es Sprache, Musik oder Video - ist schwierig, insbesondere wenn sie stark vom Kontext abhängen, der sie umgibt. Wenn beispielsweise eine Person oder ein Objekt auf einer Videoaufzeichnung aus dem Sichtfeld verschwindet und nach einer längeren Zeit wieder angezeigt wird, vergessen viele Modelle, wie sie aussah. Im Bereich der Sprachverarbeitung bieten neuronale Netze mit langem Kurzzeitgedächtnis (LSTM ) einen ausreichenden Kontext, um Satz für Satz erfolgreich zu übersetzen . In diesem Fall kann das Kontextfenster (d. H. Die Abdeckung der Daten, die das Modell bei der Übersetzung berücksichtigt) zehn bis einhundert Wörter enthalten. Neueres Transformatormodellhat nicht nur die Qualität der fortlaufenden Übersetzung verbessert, sondern kann auch verwendet werden, um ganze Wikipedia-Artikel durch Zusammenfassen mehrerer Dokumente zu generieren . Dies ist möglich, weil der Transformer das Kontextfenster auf tausend Wörter vergrößert hat. Darüber hinaus ermöglicht ein derart umfangreicher überlegter Kontext die Verwendung des Transformers, um nicht nur Text, sondern auch Pixel oder Noten zu verarbeiten, auf deren Grundlage Bilder oder Musik erzeugt werden können .