Zwei Argos-ASICs unter einem riesigen Aluminiumkühlkörper auf einer PCI-E-Karte in voller Größe Die
Google-Ingenieure tauschten Informationen über das Argos-Projekt aus. Dies ist ein neuartiger Gerätetyp - ein Hardware-Videocodierer oder eine Videocodiereinheit (VCU) im Sinne des aktuellen Trends zur Spezialisierung von Chips wie GPU-GPUs und TPU-Tensorprozessoren.
Weitere Informationen zum Argos-Design finden Sie im Forschungsbericht "Videobeschleunigung im Warehouse-Maßstab: Co-Design und Bereitstellung in freier Wildbahn", der für die ASPLOS 2021-Konferenz im April 2021 veröffentlicht wurde (doi: 10.1145 / 3445814.3446723, pdf ).
Mit Hardware-VCUs können Sie Videos schnell in über zehn von YouTube unterstützte Formate umcodieren, um eine reibungslose Anzeige und Bandbreitenersparnis zu erzielen. Die Server von YouTube sind so stark belastet, dass sich die Entwicklung proprietärer YouTube-Chips schnell ausgezahlt hat. Natürlich werden die Geräte nicht weit verbreitet sein, sondern weiterhin ausschließlich in Google-Rechenzentren verwendet. Erst dank der Veröffentlichung auf der wissenschaftlichen Konferenz erfuhr die Öffentlichkeit, dass Google diese einzigartigen Geräte seit mehr als einem Jahr verwendet.
Die Autoren des wissenschaftlichen Artikels schreiben, dass der Argos-Chip die Recheneffizienz "im Vergleich zu unserem früheren optimierten System, auf dem Software auf herkömmlichen Servern ausgeführt wurde, um das 20- bis 33-fache gesteigert hat".
Das VCU-Paket ist eine PCI-E-Karte in voller Größe, die einer GPU sehr ähnlich ist. Dem Foto des Prototyps (auf dem KDPV) nach zu urteilen, verfügt die Karte über einen separaten 8-poligen Stromanschluss, da die Stromversorgung vom Motherboard über PCI-E nicht ausreicht, um die VCU mit Strom zu versorgen.
VCU-Mikroschaltung unter einem Mikroskop, Foto in voller Größe
Anordnung der Elemente auf einer VCU-Mikroschaltung
Auf dem Chip befinden sich 10 "Codierungskerne", und in der Dokumentation heißt es, dass "alle anderen Elemente aus vorgefertigten IP-Blöcken bestehen". Ein Kern codiert einen 2160p-Stream in Echtzeit mit bis zu 60 FPS.
Karten wurden speziell für Google-Rechenzentren entwickelt. Jeder YouTube-Computercluster enthält einen isolierten VCU-Bereich mit neuen Karten, sodass diese nicht mehr auf allen Servern installiert werden müssen. VCUs wurden speziell nach GPU-Beschleunigern entwickelt, um in vorhandene Anschlüsse und Fächer der Servereinheit zu passen.
Derzeit laufen bereits "Tausende von Argos VCU-Geräten" in Google-Rechenzentren. Ihnen ist es zu verdanken, dass 4K-Videos auf YouTube „in wenigen Stunden und nicht in wenigen Tagen wie zuvor verfügbar sind“, sagt einer der Systementwickler in einem Kommentar für CNET.
In der Tabelle werden die Leistung und die Betriebskosten eines Server-Setups mit der Ausführung des Algorithmus auf Intel Skylake-Chips und Nvidia T4-GPUs verglichen.
Vergleich der Leistung von Hardware-Transcodern Intel Skylake, Nvidia T4 und Argos VPU
Heute generiert YouTube weltweit etwa ein Drittel des Internetverkehrs. Als der Dienst 2005 gestartet wurde, wurde es als unmögliche Aufgabe angesehen , ihn in Betrieb zu halten . Google hat das geldverlierende Startup durch den Kauf im Jahr 2006 für 1,65 Milliarden US-Dollar gerettet und versucht seitdem aktiv, die Wartungskosten zu senken. Dazu musste Google die Struktur des Internets neu formatieren, indem Cache-Server bei ISPs auf der ganzen Welt installiert wurden.
Heutzutage besteht das Hauptinfrastrukturproblem von YouTube darin, dem Nutzer Videos in der höchstmöglichen Qualität für sein Gerät und seine Bandbreite bereitzustellen. Dies bedeutet eine Auswahl mehrerer Codecs und Rahmengrößen, die eine Echtzeit-Transcodierung erfordern. Für ein bestimmtes Gerät ist beispielsweise 8K-Video in neun Auflösungen verfügbar: 144p, 240p, 360p, 480p, 720p, 1080p, 1440p, 2160p und natives 4320p (8K).
Einige von ihnen sind auch mit verschiedenen Codecs codiert. Das Unternehmen möchte Videos im fortschrittlichsten und effizientesten Codec anbieten, sie werden jedoch auf älteren Mobilgeräten nicht unterstützt oder verlangsamt.
Vergleichen Sie das alte H.264 (links) mit dem modernen vp9 (rechts), dem H.264-Frame und dem vp9-Frame
Vergleich der wahrgenommenen Qualität von H.264- und VP9-Videostreams gemäß PSNR-Tests
Bei modernen Geräten wird normalerweise ein effektives VP9-Video verwendet, und bei älteren Geräten wird die H.264-Unterstützung beibehalten. Andere Video-Codecs wurden nicht veröffentlicht, aber Google spricht über die Unterstützung von "Clamshell-Telefonen mit niedriger Auflösung". Das heißt, es kann davon ausgegangen werden, dass Codecs vor H.264 wie 3GP für alte Geräte unterstützt werden.
Alle Videos in der YouTube-Datenbank müssen ständig neu codiert werden, sobald neue, effizientere Codecs verfügbar werden. Es ist für Google von Vorteil, dies zu tun, um Datenverkehr zu sparen.
Es ist schwierig, die Gesamtzahl der Videos auf YouTube zu schätzen. Das Unternehmen veröffentlicht nur vage Wachstumszahlen (z. B. "500 Stunden Video werden jede Minute hochgeladen"). Wir sprechen wahrscheinlich über Exabyte.
Die Videotranscodierung wurde 12 Monate nach ihrer Installation fast vollständig auf Hardware-Transcodierer umgestellt.
Eine zusätzliche Belastung für die VCU wird durch YouTube Live-Sendungen verursacht, bei denen die Transcodierung für alle Formate live mit einer Verzögerung von nicht mehr als 100 ms durchgeführt wird. Zusätzliche Arbeitslast kommt von Google Drive und Google Fotos.
Codecs sind für den Erfolg von YouTube so wichtig, dass Google seit dem Kauf des Dienstes den größten Teil der Last für die Entwicklung neuer Codecs trägt. 2009 kaufte sie On2 Technologies (ihr VP6-Codec wurde in der ersten Version von YouTube für Flash-Videos verwendet) und veröffentlicht seitdem kontinuierlich neue Versionen. Nach VP8 und VP9 wird der nächste AV1 sein, auf den große Hoffnungen gesetzt werden.
Für AV1 wurde eine neue Version des Transcoders mit Hardware-Unterstützung für AV1 entwickelt. Laut CNET werden Chips der zweiten Generation bereits in die Serverfarmen von Google eingeführt.
Siehe auch: