Was ist die Aufgabe der Proteinfaltung? Kurze ErklÀrung



Ein Protein aus dem Bakterium Staphylococcus aureus



Ende November gab das Google DeepMind-Team bekannt, dass sein AlphaFold-Deep-Learning-System eine beispiellose Genauigkeit bei der Lösung des Proteinfaltungsproblems erreicht hat , eines schwierigen Problems der rechnergestĂŒtzten Biochemie.



Was ist das Problem und warum ist es so schwer zu lösen?



Proteine ​​sind lange Ketten von AminosĂ€uren. Ihre DNA kodiert fĂŒr diese Sequenzen, und RNA hilft dabei, Proteine ​​gemĂ€ĂŸ dieser genetischen Blaupause herzustellen. Proteine ​​werden in Form linearer Ketten synthetisiert, anschließend jedoch zu komplexen kugelförmigen Strukturen gefaltet (siehe Bild am Anfang des Artikels).



Ein Teil der Kette kann sich zu einer engen Spirale zusammenrollen. " α-Helix . "Der andere Teil kann sich hin und her biegen, um eine breite, flache Figur zu bilden," ÎČ-Faltblatt ":







Die AminosÀuresequenz selbst wird als PrimÀrstruktur bezeichnet . Diese Figuren werden als SekundÀrstruktur bezeichnet .



Diese Komponenten selbst falten sich auch zu einzigartigen komplexen Formen. Dies wird als TertiÀrstruktur bezeichnet :





Ein Enzym, das dem RRM3-





Protein Colwellia psychrerythraea entnommen wurde.



Sieht unordentlich aus. Warum ist diese verwickelte Kugel aus AminosÀuren so wichtig?



Die Proteinstruktur ist nicht zufĂ€llig! Jedes Protein faltet sich zu einer eindeutigen, einzigartigen und weitgehend vorhersehbaren Struktur, die fĂŒr eine ordnungsgemĂ€ĂŸe Funktion unerlĂ€sslich ist. Aufgrund seiner physikalischen Form ist das Protein gut fĂŒr die Strukturen geeignet, an die es binden kann. Andere physikalische Eigenschaften sind ebenfalls wichtig, insbesondere die Verteilung der elektrischen Ladung ĂŒber das Protein. Im Bild ist die positive Ladung blau und die negative Ladung rot dargestellt:





OberflÀchenladungsverteilung auf dem LipidtrÀgerprotein der Pflanzen 1 von Reis



Wenn ein Protein im Wesentlichen eine selbstorganisierende Nanomaschine ist, besteht der Hauptzweck einer AminosÀuresequenz darin, ihre einzigartige Form, Ladungsverteilung und alles andere zu erzeugen, was die Funktion des Proteins bestimmt. Wie genau dieser Prozess ablÀuft, ist noch nicht ganz klar - heute ist es ein aktives Forschungsgebiet.



In jedem Fall ist das VerstĂ€ndnis der Struktur wichtig, um zu verstehen, wie sie funktioniert. Die DNA-Sequenz definiert jedoch nur die PrimĂ€rstruktur des Proteins. Woher kennen wir seine SekundĂ€r- und TertiĂ€rstrukturen - das heißt die genaue Form, die dieses Gewirr annehmen wird?



Dieses Problem wird als Proteinfaltungsproblem bezeichnet, und es gibt zwei grundlegende AnsÀtze: Messung und Vorhersage.



Experimentelle Methoden können die Struktur eines Proteins messen. Dies ist jedoch nicht so einfach: Strukturen sind durch ein optisches Mikroskop nicht sichtbar. Röntgenkristallographie war lange Zeit die Hauptmethode zur Untersuchung von Strukturen. DarĂŒber hinaus wurde die Kernspinresonanz verwendet, und kĂŒrzlich wurde eine neue Technologie eingefĂŒhrt, die Kryoelektronenmikroskopie .





Röntgenbeugungsmuster der SARS-Protease



Diese Verfahren sind jedoch teuer, komplex und zeitaufwendig und funktionieren außerdem nicht mit allen Proteinen. Insbesondere falten sich in die Zellmembran eingebettete Proteine ​​- der gleiche Angiotensin-Converting-Enzym-2 (ACE2) -Rezeptor, an den das COVID-19-Virus bindet - in die LipiddoppelschichtZellen, und es ist sehr schwierig zu kristallisieren.





Die Struktur der Zellmembran



Daher konnten wir die Struktur eines winzigen Prozentsatzes der sequenzierten Proteine zerlegen . Die universelle Proteindatenbank enthÀlt 180 Millionen Sequenzen, wÀhrend die Datenbank dreidimensionaler Proteinstrukturen nur 170.000 Positionen enthÀlt.



Wir brauchen eine bessere Methode.



* * *



Wir erinnern daran, dass die SekundÀr- und TertiÀrstrukturen von Proteinen im Wesentlichen eine Funktion der PrimÀrstruktur sind, die uns durch Sequenzierung bekannt ist. Was wÀre, wenn wir die Struktur eines Proteins nicht messen, sondern vorhersagen könnten?



Dies ist die Aufgabe, die Struktur von Proteinen vorherzusagen. Computational Biochemists arbeiten seit Jahrzehnten daran.



Wie können Sie es angehen?



Der naheliegende Weg besteht darin, die Physik des Prozesses direkt zu simulieren. Wir simulieren KrĂ€fte fĂŒr jedes Atom unter BerĂŒcksichtigung seiner Position, Ladung und chemischen Bindungen. Wir zĂ€hlen Beschleunigungen und Geschwindigkeiten und scrollen Schritt fĂŒr Schritt durch die Entwicklung des Systems. Dies nennt man "Molekulardynamik".





Supercomputer " Anton " von DE Shaw Research





Supercomputer IBM Blue Gene





Online-Puzzle Foldit



Das Problem ist, dass dieser Ansatz Ă€ußerst rechenintensiv ist. Ein typisches Protein enthĂ€lt Hunderte von AminosĂ€uren, dh Tausende von Atomen. Auch die Umwelt spielt eine Rolle: Beim Falten interagiert das Protein mit dem umgebenden Wasser. Daher ist es notwendig, das Verhalten von etwa 30.000 Atomen zu simulieren. In diesem Fall tritt eine elektrostatische Wechselwirkung zwischen jedem Atompaar auf, dh mit einer groben SchĂ€tzung erhalten wir 450 Millionen Paare, ein Problem mit der KomplexitĂ€t O (N2). Es gibt clevere Algorithmen, die ihre KomplexitĂ€t auf O (N log N) reduzieren. ZusĂ€tzlich mĂŒssen fĂŒr die Simulation 10 9 -10 12 Schritte berechnet werden. Außergewöhnliche Kopfschmerzen.



Okay, aber wir mĂŒssen nicht den gesamten Faltvorgang simulieren. Ein anderer Ansatz schlĂ€gt vor, eine Struktur mit minimaler potentieller Energie zu finden. Objekte neigen normalerweise dazu, mit der geringsten Energie zur Ruhe zu kommen, daher ist dieser heuristische Ansatz gerechtfertigt. Energie kann mit demselben molekulardynamischen Modell berechnet werden, das uns die GrĂ¶ĂŸe der Wechselwirkungen angibt. Mit diesem Ansatz können wir eine Reihe von Kandidaten ausprobieren und die Struktur mit der geringsten Energie auswĂ€hlen. Das Problem ist natĂŒrlich, woher die Strukturen stammen. Es gibt einfach zu viele von ihnen - der Molekularbiologe Cyrus Levintol hat berechnet, dass es ungefĂ€hr 10.300 geben könnten . NatĂŒrlich können Sie einen intelligenteren Ansatz als zufĂ€llige Brute Force verwenden. Aber es gibt immer noch zu viele von ihnen.



Daher wurden bereits viele Versuche unternommen, solche Berechnungen zu beschleunigen. Anton, ein Supercomputer von DE Shaw Research, verwendet spezielle Hardware - spezielle integrierte Schaltkreise. IBM verwendet auch den Blue Gene Bio-Supercomputer. Stanford startete das Folding @ Home-Projekt mit der verteilten Leistung von Heimcomputern. Das Foldit-Projekt von UW hat das Falten zu einem Spiel gemacht, um der Berechnung menschliche Intuition zu verleihen.



Lange Zeit war es jedoch keiner Technologie möglich, eine Vielzahl von Proteinstrukturen mit hoher Genauigkeit vorherzusagen. Beim zweimal jÀhrlich stattfindenden CASP-Wettbewerb, bei dem die Ergebnisse der Algorithmen mit den experimentell gemessenen Strukturen verglichen werden, erhielten die ersten PlÀtze Vorhersagen mit einer Genauigkeit von 30-40%. Bis vor kurzem:





Beste Team-Median-Vorhersagegenauigkeit in der Kategorie freie Modellierung.



Wie funktioniert AlphaFold? Es verwendet mehrere tiefe neuronale Netze, um verschiedene Funktionen zu lernen, die mit jedem Protein verbunden sind. Eine der SchlĂŒsselfunktionen besteht darin, die resultierenden AbstĂ€nde zwischen AminosĂ€urepaaren vorherzusagen. Dies bringt den Algorithmus zur endgĂŒltigen Struktur. In einer Variante des Algorithmus (beschrieben in den Fachzeitschriften Nature and Proteins ) wurde die potenzielle Funktion dieser Vorhersage abgeleitet, auf die der einfachste Gradientenabstieg angewendet wurde, der ĂŒberraschend gut funktionierte.



Der Hauptvorteil von AlphaFold gegenĂŒber frĂŒheren Methoden besteht darin, dass keine Annahmen ĂŒber Strukturen getroffen werden mĂŒssen. Einige Methoden arbeiten, indem sie Proteine ​​in Abschnitte aufteilen, jeden einzelnen zĂ€hlen und dann alles wieder zusammensetzen. AlphaFold braucht das nicht.



Anscheinend hĂ€lt DeepMind das Faltproblem fĂŒr gelöst, was mir als ĂŒbermĂ€ĂŸige Vereinfachung erscheint, aber auf jeden Fall sind ihre Fortschritte erheblich. Experten, die nicht mit Google verbunden sind, verwenden Beinamen wie " fantastisch " und " revolutionĂ€r ".



Die Gentechnik verfĂŒgt nun ĂŒber zwei leistungsstarke Tools: CRISPR und Proteinfaltung. Vielleicht sind die 2020er Jahre fĂŒr die Biotechnologie wie die 1970er Jahre fĂŒr die Datenverarbeitung.



Herzlichen GlĂŒckwunsch an die DeepMind-Forscher zu diesem Durchbruch!



All Articles