Reverse Engineering des Quellcodes eines Coronavirus-Impfstoffs von BioNTech / Pfizer

Willkommen zurück. In diesem Beitrag werden wir den Quellcode des BioNTech / Pfizer SARS-CoV-2-mRNA-Impfstoffs Zeichen für Zeichen analysieren.



Ja, eine solche Aussage kann Sie überraschen. Ein Impfstoff ist eine Flüssigkeit, die einer Person in die Hand injiziert wird. Was hat der Quellcode damit zu tun?



Gute Frage. Wir beginnen mit einem kleinen Teil des gleichen Quellcodes für den BioNTech / Pfizer-Impfstoff, auch bekannt als BNT162b2 , auch bekannt als Tozinameran, auch bekannt als Comirnaty .





Die ersten 500 Zeichen der BNT162b2-mRNA.



Das Herzstück des Impfstoffs ist dieser digitale Code. Es ist 4284 Zeichen lang und kann daher in einige Tweets passen. Zu Beginn des Impfstoffherstellungsprozesses hat jemand diesen Code in einen DNA-Drucker (yep) hochgeladen, der wiederum die Bytes vom Speichergerät in echte DNA-Moleküle umwandelte.





DNA-Drucker Codex DNA BioXp 3200



Aus einer solchen Maschine tritt eine winzige Menge DNA auf, die nach längerer biologischer und chemischer Verarbeitung in einer Durchstechflasche mit einem Impfstoff in RNA umgewandelt wird. Eine Dosis von 30 μg enthält tatsächlich 30 μg RNA. Es hat auch ein cleveres Lipid (Fett) -Verpackungssystem, das mRNA an unsere Zellen liefert.



RNA ist eine flüchtige Version von DNA, die sozusagen im "Arbeitsgedächtnis" gespeichert wurde. DNA ist wie ein Flash-Laufwerk für die Biologie. DNA ist zuverlässig, robust und intern redundant. Computer führen Code jedoch auch nicht direkt von einem Flash-Laufwerk aus. Bevor alles beginnt, wird der Code in ein schnelleres und flexibleres, aber auch anfälligeres System kopiert.



In Computern ist dies RAM und in der Biologie ist es RNA. Die Ähnlichkeit ist schockierend. Im Gegensatz zum Flash-Speicher verschlechtert sich der Arbeitsspeicher schnell, wenn er nicht sorgfältig gepflegt wird. Der Grund, warum der Pfizer / BioNTech-RNA-Impfstoff bei sehr niedrigen Temperaturen gelagert werden muss, ist der gleiche: RNA ist eine empfindliche Blume.



Jedes RNA-Symbol wiegt in der Größenordnung von 0,53 × 10 –21 g, dh eine Dosis von 30 μg Impfstoff enthält 6 × 10 16 Symbole. In Bytes ergibt sich ein Wert von etwa 25 PB, obwohl der Impfstoff tatsächlich aus 2000 Milliarden Wiederholungen mit denselben 4284 Zeichen besteht. Der tatsächliche Inhalt des Impfstoffs liegt bei etwas mehr als einem Kilobyte. SARS-CoV-2 selbst hat ein Volumen von ca. 7,5 KB.



Kurzübersicht



DNA ist ein digitaler Code. Im Gegensatz zu Computern, die 0 und 1 verwenden, werden jedoch die Zeichen A, C, G und U / T ("Nukleotide", "Nukleoside" oder "Basen") verwendet.



In Computern werden 0 und 1 in Form von Vorhandensein / Nichtvorhandensein von Ladung oder Strom oder magnetischem Übergang oder Spannung oder Signalmodulation oder Änderungen der Reflexivität gespeichert. Kurz gesagt, Nullen und Einsen sind keine Abstraktionen, sie leben in Form von Elektronen und vielen anderen physischen Inkarnationen.



In der Natur sind A, C, G und U / T Moleküle, die in Ketten in DNA (oder RNA) gespeichert sind.



In Computern werden 8 Bits in Bytes gruppiert, und Daten werden normalerweise byteweise verarbeitet.



Die Natur gruppiert drei Nukleotide in CodonsDies sind die typischen Einheiten für die Verarbeitung genetischer Informationen. Das Codon enthält 6 Informationsbits (2 Bit pro DNA-Symbol, 3 Zeichen = 6 Bit). Dies bedeutet, dass das Codon 2 6 = 64 verschiedene Werte annehmen kann .



Bisher ist alles ziemlich digital. Zweifler können sich das Dokument der WHO ansehen, das den digitalen Code enthält.



Was macht dieser Code?



Die Idee hinter einem Impfstoff ist es, unserem Immunsystem beizubringen, einen Krankheitserreger zu bekämpfen, ohne tatsächlich krank zu werden. In der Vergangenheit wurde dafür ein geschwächtes oder nicht funktionierendes Virus mit einem Hilfsmittel in den Körper eingeführt, um das Immunsystem richtig zu beleben und es zum Handeln zu zwingen. Es war größtenteils eine analoge Technologie, bei der Milliarden von Eiern (oder Insekten) verwendet wurden. Sie brauchte auch viel Glück und viel Zeit. Manchmal wurde dafür ein völlig anderes Virus verwendet.



mRNA erzielt das gleiche Ergebnis (Training des Immunsystems), ist jedoch viel intelligenter als mit einem Laservisier. In jeder Hinsicht - eine eng fokussierte, aber kraftvolle Wirkung.



So funktioniert das. Das Präparat enthält instabiles genetisches Material, das das berühmte Protein „Spike“ SARS-CoV-2 beschreibt. Durch clevere chemische Reaktionen liefert der Impfstoff dieses genetische Material an einige unserer Zellen.



Diejenigen, die danach gehorsam beginnen, beginnen SARS-CoV-2-Proteine ​​zu produzieren, deren Menge groß genug ist, um unser Immunsystem zu starten. Angesichts der Spike-Proteine ​​und der charakteristischen Anzeichen einer Zellinfektion entwickelt es eine starke Reaktion auf die verschiedenen Eigenschaften des Spike-Proteins und den Prozess seiner Reproduktion.



So funktioniert der Impfstoff mit einer Wirksamkeit von 95%.



Quelle!



Beginnen wir am besten - von Anfang an. Das WHO-Dokument enthält das folgende hilfreiche Bild:







Es ist eine Art Inhalt. Beginnen wir mit dem Gegenstand "Mütze", der in Form eines Hutes gestaltet ist [dt. Mütze - Mütze, Mütze, Hut].



Genau wie auf einem Computer können Sie nicht einfach Opcodes in eine Datei schreiben und ausführen. Ein biologisches Betriebssystem benötigt daher Header, Linker und so etwas wie Regeln für die Benennung von Variablen.



Der Impfcode beginnt mit den folgenden zwei Nukleotiden:



GA




Vergleichbar mit allen ausführbaren DOS- und Windows-Dateien, die mit "MZ" -Zeichen beginnen, oder mit UNIX-Skripten, die mit "#!" Beginnen. Sowohl im Leben als auch in Betriebssystemen werden diese beiden Zeichen nicht ausgeführt. Aber sie müssen da sein, sonst funktioniert nichts.



Der mRNA-Header hat mehrere Funktionen. Sie stellt zum Beispiel fest, dass der Code vom Kernel stammt. In unserem Fall ist dies nicht der Fall - der Code stammt natürlich aus dem Impfstoff. Aber die Zelle muss das nicht wissen. Der Hut verleiht dem Code Glaubwürdigkeit und schützt ihn vor Zerstörung.



Außerdem unterscheiden sich die beiden ursprünglichen GA-Nukleotide chemisch geringfügig vom Rest der RNA. In diesem Sinne ist in die GA eine Art Out-of-Band-Signalisierung eingebaut.



Nicht übersetzte Region mit fünf Balken



Ein bisschen Jargon. RNA-Moleküle werden nur in eine Richtung gelesen. Ein bisschen verwirrend ist, dass das Lesen von dem Teil beginnt, der 5 'genannt wird . Und endet mit Teil 3 '.



Das Leben besteht aus Proteinen (und allem, was aus ihnen besteht). Diese Proteine ​​sind in RNA beschrieben. Die Umwandlung von RNA in Protein wird Translation genannt .



Als nächstes werde ich eine nicht translatierte Region (UTR; nicht translatierte Region, UTR) 5 'angeben - das heißt, dieser Teil geht nicht in das Protein über:



GAAΨAAACΨAGΨAΨΨCΨΨCΨGGΨCCCCACAGACΨCAGAGAGAACCCGCCACC




Hier erwartet uns die erste Überraschung. Die üblichen Symbole für RNA sind A, C, G und U. In der DNA ist U auch als T bekannt. Aber dann erscheint eine Art Ψ - was passiert?



Dies ist eine der äußerst schwierigen Eigenschaften des Impfstoffs. Unser Körper hat ein starkes Antivirensystem. Dank ihr stehen Zellen fremden RNAs äußerst skeptisch gegenüber und bemühen sich, sie zu zerstören, bevor sie etwas unternehmen.



Dies ist ein Problem für einen Impfstoff - er muss an unserem Immunsystem vorbeigleiten. In langjährigen Experimenten wurde festgestellt, dass unser Immunsystem das Interesse daran verliert, wenn U in RNA durch ein leicht verändertes Molekül ersetzt wird. Überhaupt.



Daher wird im BioNTech / Pfizer-Impfstoff jedes U durch 1-Methyl-3'-pseudouridin ersetzt, was mit Ψ bezeichnet wird. Der Trick dabei ist, dass, obwohl ein solcher Ersatz unser Immunsystem beruhigt, die notwendigen Teile der Zellen es als gewöhnliches U wahrnehmen.



Dieser Trick ist auch in der Computersicherheit bekannt. Manchmal ist es möglich, eine leicht verstümmelte Version der Nachricht zu übertragen, die Firewalls und Sicherheitssysteme verwirrt, aber von Backend-Servern akzeptiert wird. Und dann können sie gehackt werden.



Heute ernten wir die Früchte der wissenschaftlichen Grundlagenforschung aus der Vergangenheit. Die Menschen , die diese Ψ-Technologie entdeckten, mussten kämpfen, um Geld zu finden und Anerkennung zu erlangen. Wir sollten ihnen dafür dankbar sein, und ich bin sicher, dass der Nobelpreis sie irgendwann finden wird .

, Ψ-, ? , . , 1--3'-. , , . , Ψ .


Kehren wir zu unserem 5 'NTO zurück. Was machen diese 51 Symbole? Wie fast alles in der Natur haben sie keine einzige klare Funktion.



Wenn Zellen RNA in Proteine ​​umwandeln müssen, wird eine Maschine namens Ribosom eingeschaltet. Das Ribosom ist wie ein 3D-Drucker für Proteine. Es absorbiert ein Stück RNA und setzt auf seiner Basis eine Kette von Aminosäuren frei, die dann zu Protein gefaltet wird .







Dieser Vorgang wird im Video gezeigt. Der dunkle Streifen unten ist RNA. Der Streifen auf dem grünen Hintergrund ist das sich bildende Protein. Eingehende und ausgehende Gizmos sind Aminosäuren und Adapter , mit denen sie auf RNA passen .



Damit das Ribosom funktioniert, muss es physisch auf einem Stück RNA sitzen. Danach kann es beginnen, Proteine ​​zu bilden, basierend auf Informationen, die aus weiteren RNA-Segmenten stammen. Das heißt, es kann nicht die Teile lesen, auf denen es zuerst landen muss. "Anleitung" wird von NTO bereitgestellt.



Darüber hinaus enthält das NTO Metadaten: Wann sollte die Übertragung stattfinden? Wie viel? Für den Impfstoff fanden die Wissenschaftler eine NTO, in der der Sendebefehl so früh wie möglich aufgezeichnet wurde. Sie kommt aus Gen Alpha Globin . Dieses Gen ist bekannt für die zuverlässige Produktion großer Mengen an Proteinen. In der Vergangenheit haben Wissenschaftler bereits die Möglichkeit gefunden, diese UTR weiter zu optimieren. Daher wurde für den Impfstoff etwas Besseres verwendet, keine UTR aus Alpha-Globin.



S-Glykoprotein-Signalsequenz



Wie bereits erwähnt, besteht das Ziel des Impfstoffs darin, die Zelle dazu zu bringen, das SARS-CoV-2-Spike-Protein im industriellen Maßstab zu produzieren. Bisher haben wir uns hauptsächlich mit Metadaten und Namenskonventionen im Quellcode befasst. Und jetzt betreten wir das Gebiet der viralen Proteine.



Zuerst müssen wir jedoch eine andere Ebene von Metadaten durchgehen. Nachdem das Ribosom (aus der großen Animation oben) ein Protein hergestellt hat, muss es noch irgendwohin gelangen. Dies wird in der codierten Signalsequenz (Peptid) des S-Glykoprotein (in der ausgezogenen Leitsequenz ).



Am Anfang des Proteins befindet sich so etwas wie ein Adressetikett, das in der gleichen Form wie das gesamte Protein codiert ist. In diesem Fall besagt die Signalsequenz, dass das Protein die endoplasmatische Retikulumzelle verlassen muss . Sogar Star Trek hatte keinen so coolen Jargon!



Die Signalsequenz ist nicht sehr lang, aber das Codebeispiel zeigt den Unterschied zwischen der RNA des Virus und dem Impfstoff. Zum leichteren Vergleich habe ich Ψ durch das übliche U von RNA ersetzt:



           3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
Virus: AUG UUU GUU UUU CUU GUU UUA UUG CCA CUA GUC UCU AGU CAG UGU GUU
Impfstoff: AUG UUC GUG UUC CUG GUG CUG CCU CUG GUG UCC AGC CAG UGU GUU
               ! ! ! ! ! ! ! ! ! ! ! ! !            




Ich gruppiere RNA nicht versehentlich nach drei Symbolen. Diese Symbole bilden Codons. Und jedes Codon codiert eine bestimmte Aminosäure. Die Signalsequenz des Impfstoffs besteht aus genau den gleichen Aminosäuren wie das Virus selbst.



Warum ist RNA anders?



Es kann 4 3 = 64 Codons geben , da RNA 4 Symbole hat, von denen drei ein Codon bilden. In diesem Fall gibt es nur 20 verschiedene Aminosäuren. Es stellt sich heraus, dass mehrere Codons dieselbe Aminosäure codieren.



Life verwendet die folgende, fast universelle Tabelle zur Abbildung von RNA-Codons auf Aminosäuren:







Die Tabelle zeigt, dass Impfstoffmodifikationen (UUU -> UUC) synonym sind. Der RNA-Code des Impfstoffs ist unterschiedlich, aber die Ausgabe ist die gleiche Aminosäure und Protein.



Eine genaue Untersuchung zeigt, dass die meisten Änderungen im dritten Codon enthalten sind, das mit der Nummer 3 gekennzeichnet ist. Durch Überprüfen der universellen Codontabelle können wir feststellen, dass diese dritte Position häufig keinen Einfluss darauf hat, welche Aminosäure am Ende erhalten wird.



Aber wenn die Änderungen auch sind, warum werden sie benötigt? Wenn Sie genau hinschauen, erhöht jede Änderung bis auf eine die Anzahl von C und G.



Warum ist dies notwendig? Wie bereits erwähnt, ist unser Immunsystem sehr skeptisch gegenüber "externer" RNA - dh gegenüber dem Code, der von außerhalb der Zelle stammt. Um eine Erkennung zu vermeiden, haben wir U bereits durch Ψ ersetzt.



Es stellt sich jedoch heraus, dass RNA mit einer großen Menge an G und C häufiger und effizienter in Proteine ​​umgewandelt wird. Zu diesem Zweck wurden viele Symbole im RNA-Impfstoff nach Möglichkeit durch G und C ersetzt.



Echter Eichhörnchendorn



Die nächsten 3777 RNA-Zeichen des Impfstoffs sind ebenfalls "codonoptimiert" mit dem Ziel, mehr C und G hinzuzufügen. Ich werde hier nicht den gesamten Code angeben, aber wir werden ein spezielles Fragment davon untersuchen. Es ist ihm zu verdanken, dass der Impfstoff wirkt - es ist dieser Teil, der uns hilft, zum normalen Leben zurückzukehren:



                  * *
          LDKVEAEVQIDRLITG
Virus: CUU GAC AAA GUU GAG GCU GAA GUG CAA AUU GAU AGG UUG AUC ACA GGC
Impfstoff: CUG GAC CCU CCU GAG GCC GAG GUG CAG AUC GAC AGA CUG AUC ACA GGC
          LDPPEAEVQIDRLITG
           ! !!! !! ! ! ! ! ! ! !              




Auch hier sind die üblichen RNA-Veränderungen sichtbar. Beispielsweise wurde im ersten Codon die CUU durch die CUG ersetzt. Dies fügt dem Impfstoff ein weiteres G hinzu, das zur Steigerung der Proteinproduktion beiträgt. CUU und CUG kodieren für die Aminosäure L oder Leucin, sodass sich im Protein nichts ändert.



Durch den Vergleich des Spike-Proteins mit dem Impfstoff können wir feststellen, dass alle Änderungen ähnlich sind - mit Ausnahme von zwei. Beide sind in diesem Fragment sichtbar.



Das dritte und vierte Codon enthalten echte Änderungen. Die Aminosäuren K und V werden durch P oder Prolin ersetzt. Im Fall von K waren drei Änderungen erforderlich ('!!!') und im Fall von V zwei ('!!'). Es stellt sich heraus, dass diese beiden Änderungen den Impfstoff unglaublich verbessern.



Also, was ist hier los? Wenn Sie sich ein echtes Viruspartikel ansehen, werden Sie feststellen, dass das Spike-Protein ein Bündel von Stacheln ist: Die







Spikes sind an den Körper des Virus gebunden ("Nucleocapsid-Protein"). Unser Impfstoff erzeugt diese Dornen jedoch nur selbst und wir binden sie nicht an virale Körper.



Es stellt sich heraus, dass die separat vorhandenen Spike-Proteine ​​zu einer völlig anderen Struktur zusammenfallen. Wenn sie als Teil eines Impfstoffs eingeführt würden, würde unser Körper Immunität gegen sie entwickeln - aber nur gegen ihr kollabiertes Aussehen. Das echte Coronavirus zeigt gerade Spitzen. In dieser Form würde der Impfstoff kaum wirken.



Also, was machen wir? Im Jahr 2017 wurde es beschriebenWie die doppelte Substitution von Prolin an der richtigen Stelle dazu führt, dass die SARS-CoV-1- und MERS S-Proteine ​​ihre "ursprüngliche" Form annehmen, auch ohne Bindung an das Virus. Alles dank der Stärke von Prolin. Diese Aminosäure wirkt wie eine Schiene und stabilisiert das Protein in dem Zustand, in dem wir es dem Immunsystem präsentieren müssen. Menschen,



die dies entdeckt haben, müssen sich ständig auf die Schultern klopfen und ständig grinsen. Und das alles wird verdient sein. Nachdem der erste Entwurf des Artikels veröffentlicht worden war, sprach ich mit Leuten aus McLeillans Labor und sie sagten, dass das Klatschen auf die Schultern bisher aufgrund der Pandemie ausgesetzt wurde, aber sie sind stolz auf ihren Beitrag zum Impfstoff. Und betonen Sie die Bedeutung anderer Gruppen und Freiwilliger, die daran arbeiten.







Eichhörnchenende und nächste Schritte



Wenn Sie bis zum Ende durch den Quellcode scrollen, werden am Ende des Spike-Proteins kleine Änderungen angezeigt:



          VLKGVKLHYT s             
Virus: GUG CUC AAA GGA GUC AAA UUA CAU UAC ACA UAA
Impfstoff: GUG CUG AAG GGC GUG AAA CUG CAC UAC ACA UGA UGA 
          VLKGVKLHYT ss          
               ! ! ! ! ! ! ! !




Am Ende des Proteins befindet sich ein "Stop" -Codon, das mit dem Buchstaben s markiert ist. Dies ist ein höflicher Weg, um das Ende des Proteins anzuzeigen. Das Virus selbst verwendet das UAA-Codon als Stopp, und der Impfstoff verwendet zwei UGA-Codons. Vielleicht nur für den Fall.



Nicht übersetzter Bereich 3 '



Genau wie am Ende der 5 'fanden wir die 5'-UTR, die zur Führung des Ribosoms benötigt wird, am Ende des Proteins finden wir ein ähnliches Konstrukt, die 3'-UTR.



Es gibt viele Worte über sie zu schreiben, aber ich würde lieber aus Wikipedia zitieren. „3'-UTR spielt eine entscheidende Rolle bei der Genexpression und beeinflusst die Lokalisierung, Stabilität, den Export und die Translationseffizienz von mRNA. Trotz all unseres derzeitigen Wissens über 3'-NTOs ist ihre Arbeit immer noch weitgehend mysteriös. "



Wir wissen jedoch, dass bestimmte 3'-UTRs sehr erfolgreich bei der Vermittlung der Proteinexpression sind. Laut einem Dokument der WHO stammt die im BioNTech / Pfizer-Impfstoff enthaltene 3'-UTR vom "aminoterminalen Enhancer von gespaltener (AES) mRNA und mitochondrial codierter 12S-ribosomaler RNA, um RNA-Stabilität und hohe Gesamtproteinexpression sicherzustellen". Was soll ich sagen - gut gemacht.







Und das Ende von allem, AAAAAAAAAAAAAAAAAAAAAAAA



Das Ende der mRNA ist polyadenyliert . Dies ist eine floride Art zu sagen, dass es mit einer Reihe von Sequenzen AAAAAAAAAAAAAAAAAA endet. Anscheinend hat 2020 sogar mRNA herausgenommen.



mRNA kann viele Male wiederverwendet werden, verliert jedoch einige "A" von ihrem Ende. Sobald das "A" ausgeht, funktioniert die mRNA nicht mehr und wird verworfen. In diesem Sinne schützt der Poly-A-Schwanz ihn vor Abbau. Spezielle Studien wurden durchgeführt, um die optimale Menge an "A" am Ende von mRNA-Impfstoffen zu bestimmen. In offenen Quellen habe ich gelesen, dass sie ungefähr 120 Stück haben.



Der BNT162b2-Impfstoff endet am



                                     ****** ****
UAGCAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAGCAUAU GACUAAAAAA AAAAAAAAAA 
AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAA




30 "A", dann "Nucleotid Linker-10" (GCAUAUGACU), gefolgt von weiteren 70 "A".



Ich vermute, dass die proprietäre Optimierung erneut zur Verbesserung der Proteinexpression eingesetzt wird.



Ergebnis



Wir kennen jetzt den genauen Inhalt des BNT162b2-Impfstoffs und verstehen größtenteils, warum er so funktioniert:

  • Die CAP-Kappe, die die RNA wie normale mRNA aussehen lässt.
  • Bekanntes, erfolgreich getestetes und optimiertes 5'-NTO.
  • Signalsequenz mit optimierten Codons, die das Spike-Protein an die richtige Stelle sendet (vom Virus selbst kopiert).
  • Eine Variante des ursprünglichen Spike-Proteins mit optimierten Codons mit zwei Prolin-Substitutionen, um die korrekte Wirbelsäulenform sicherzustellen.
  • Bekanntes, erfolgreich getestetes und optimiertes 3'-NTO.
  • Ein etwas mysteriöser Schwanz aus Poly-A mit einer Art "Linker".


Durch die Optimierung der Codons werden der mRNA viele Gs und Cs hinzugefügt. Die Verwendung von Ψ (1-Methyl-3'-pseudouridin) anstelle von U hilft, das Immunsystem auszutricksen. Dank dessen existiert mRNA lange genug, um Zeit zu haben, unser Immunsystem zu trainieren.



All Articles