Vor einigen Tagen sprach Alsu Missarova, Absolvent der Fakultät für Mechanik und Mathematik der Moskauer Staatlichen Universität, promovierte in Systembiologie (funktionelle Genomik in Hefe) an der Universitat Ponepu Fabra in Barcelona auf unserem YouTube. Jetzt ist Alsou Postdoc im Labor von JOhn Marioni (EBI, Cambridge, UK) und beschäftigt sich mit der Einzelzell-RNA-Sequenz und der Integration in die räumliche Transkriptomik.
Alsou gab eine sehr kurze Einführung in die Bioinformatik und ihre Unterschiede zur Computerbiologie. Wir teilen mit Ihnen die Aufzeichnung und Abschrift der Sendung: Wir hoffen, dass dies die Einführung für eine ganze Reihe von Rednern ist, die sich mit Bioinformatik beschäftigen.
Ich heiße Alsu Missarova. Ich wurde gebeten, Ihnen etwas über Bioinformatik zu erzählen - insbesondere darüber, welche Probleme ich löse, welche Art von Daten ich verarbeite, welche Probleme es in der Computerbiologie für Technikfreaks gibt, für Menschen mit einer Vorliebe für Informatik, Datenanalyse und so weiter.
Ich bin selbst kein Bioinformatiker, ich bin ein Computerbiologe. Diese beiden Konzepte sind stark korreliert und die Grenze zwischen ihnen ist verschwommen, aber es ist wichtig, den Unterschied zu verstehen. Für beide ist es das Ziel, einige biologische Fragen zu beantworten oder unser Verständnis der Funktionsweise biologischer Prozesse zu verbessern. Ihr Ansatz ist ähnlich: Verarbeitung und Datenanalyse einer großen Datenmenge, die nicht mit Augen und Händen verarbeitet werden kann. Der Unterschied liegt in der Priorität. Der Computerbiologe wird eher eine relativ spezifische biologische Frage haben und muss verstehen, welche Art von Daten zu sammeln sind. Sie müssen Zugriff auf diese Daten haben, Sie müssen in der Lage sein, die Frage korrekt zu verarbeiten, zu analysieren, zu interpretieren und tatsächlich zu beantworten. Wenn das Ziel die Informatik ist, ist es vielmehr die Schaffung von Algorithmen, Körpern und Methoden für die Arbeit mit biologischen Daten.Die Aufgabe wird höchstwahrscheinlich an die Spitze gestellt, und die Daten werden in einem industrielleren Format vorliegen. Das heißt, sie haben ein bestimmtes Datenformat, das sie verarbeiten, das für eine große Anzahl von Individuen oder Organismen erstellt werden muss, und so weiter.
Sie können es so nehmen: Computerbiologe ist eher ein Biologe, der einige Bibliotheken öffnen und einige Werkzeuge verwenden kann, und Bioinformatik ist eher ein Informatiker, der sich nicht für Biologie interessiert, der sie nicht wirklich versteht, und er einfach arbeitet mit Zahlen, mit Strings, mit Daten. In der Tat ist es natürlich nicht. Dies gilt für jedes Feld, aber wenn Sie mit Daten arbeiten - in jedem Feld - müssen Sie unbedingt verstehen, über welche Art von Daten Sie verfügen und woher das Rauschen in den Daten stammt. Und es wird viel Rauschen in den biologischen Daten geben, die Sie erhalten. Grob gesagt kann es in technisches und biologisches Rauschen zerlegt werden. Technisches Rauschen entsteht durch die Tatsache, dass die Maschinen, die die Daten erstellen, unvollständig und fehlerhaft sind. Und biologisches Rauschen tritt auf, weil es in jedem System große Unterschiede gibt.Selbst zwischen zwei Zellen desselben Organismus, selbst wenn es sich um benachbarte Hautzellen handelt, gibt es einen biologischen Unterschied. Es ist notwendig, technisches Rauschen von biologischem zu unterscheiden, technisches zu entfernen und biologisches zu verlassen, und dies erfordert ein Verständnis der Biologie.
Kommen wir zu den Daten, die wir in der Biologie haben. Wenn Menschen Bioinformatik hören, denken sie zunächst an die DNA-Sequenzierung (was im Prinzip gerechtfertigt ist). Ich denke, jeder weiß, was es ist: Es ist relativ gesehen die Fähigkeit zu bestimmen, welche DNA-Sequenz ein Organismus hat. Das heißt, DNA ist ein sehr langes Molekül; für den Menschen sind es ungefähr 3,1 Milliarden "Buchstaben". 4 Buchstaben - ACDH - das sind Nukleotide. Dementsprechend haben die Menschen gelernt, die DNA eines Lebewesens zu lesen. Das ist sehr cool. Jetzt können Sie beispielsweise die Sequenzen zweier Personen bestimmen, vergleichen und kontrastieren, was der Unterschied zwischen diesen Sequenzen und was der Unterschied zwischen diesen Personen ist, und versuchen, eine Ursache-Wirkungs-Beziehung zu finden. So beeinflusst DNA Ihren Phänotyp, was ist der Unterschied zwischen zwei Personen. Sagen wir auch in der Computerbiologie:Sie können zwei Organismen benachbarter Arten entnehmen und auf dieselbe Weise sequenzieren - bestimmen Sie die DNA-Sequenz und versuchen Sie dementsprechend zu verstehen, was der Unterschied zwischen den beiden Organismen ist und welche DNA sie tatsächlich beeinflusst.
Jetzt können Sie in eine andere Dimension gehen und die folgende Frage stellen: Wenn Sie zwei Zellen von einem Organismus, von einer Person, nehmen, was ist dann der Unterschied zwischen ihnen? Das heißt, relativ gesehen unterscheiden sich Hautepithelzellen von Neuronen. Hier ist DNA nicht mehr sehr gut geeignet. Es gibt ein Axiom, das weitgehend falsch ist: dass die DNA-Sequenz von Zellen in einem Organismus immer dieselbe ist. Es ist falsch, weil ein lebender Organismus eine dynamische Struktur ist; es wächst, teilt, stirbt. In diesem Prozess häufen sich Mutationen an. Der DNA-Replikationsprozess ist nicht perfekt und bricht manchmal zusammen. DNA wiederholt sich, aber wiederholt sich unvollkommen. Mutationen können neutral sein, was zu nichts führt, oder schädlich, was zu Funktionsstörungen der Zellen führt. Wenn wir abstrahieren, ist die DNA-Sequenz zwischen den beiden Zellen natürlich immer noch mehr oder weniger identisch.aber sie funktionieren anders. Dementsprechend zielen eine Vielzahl von biologischen Fragen darauf ab, zu verstehen, was der Unterschied zwischen verschiedenen Zellen ist und was dies beeinflusst. Die Community hat Anfragen nach dieser Art von Daten. Sie müssen in der Lage sein, diesen Unterschied hervorzuheben, zu berechnen und zu lesen.
Hier kommen wir zu dem, was ich tue. Das Hauptdatenformat (oder eines der Hauptdatenformate), das hier verwendet wird, ist die RNA-Sequenzierung. Jetzt werde ich kurz darüber sprechen, was RNA ist und wie sich die RNA-Sequenzierung im Allgemeinen entwickelt.
Dies ist eine sehr abgekürzte Version, in der Tat ist alles komplizierter. Die beiden Säulen, die die Zellbiosynthese unterstützen, sind Transkription und Translation. DNA ist ein sehr langes Wort, das bestimmte Informationen codiert. Diese Informationen von der Zelle können verarbeitet, gelesen und zu Funktionselementen verarbeitet werden.
Proteine sind ein Paradebeispiel dafür. Dies sind so kleine Maschinen in einer Zelle, die bestimmte Funktionen ausführen und die Lebensdauer und Funktionalität dieser Zelle bereitstellen, so dass sie ordnungsgemäß funktioniert. Proteine werden von Genen kodiert. Ein Gen ist ein Unterwort in einer DNA-Sequenz. Transkription ist, wenn eine großmolekulare Maschine auf einer langen Doppelhelix eines DNA-Moleküls sitzt - Polymerase, die durch Gene wandert, Kopien erstellt und diese in das Zytoplasma der Zelle wirft. Diese DNA-Kopien (nicht wirklich Kopien) werden in einer bestimmten Menge erstellt. Dementsprechend haben zwei verschiedene Zellen unterschiedliche Mengen an RNA aus verschiedenen Genen. Für eine Epithelzelle wird mehr Gen A benötigt, für Neuronen mehr Gen B, und eine andere Anzahl von ihnen wird produziert. Dann wird die RNA verarbeitet, und wenn sie in einem endlicheren Format vorliegt, "setzt" sich eine andere Maschine auf den Faden. Beziehungsweise,Wenn Menschen über RNA-Sequenzierung sprechen, meinen sie relativ gesehen, wie viel von welcher RNA aus welchen Genen in Zellen produziert wird. Dies ist die RNA-Zusammensetzung oder RNA-Sequenzierung.
Tatsächlich ist es sehr cool, dass die Leute gelernt haben, dies zu tun. Die Hauptbeschränkung dieser Technologie bestand lange Zeit darin, dass viele Zellen benötigt wurden, um RNA-Material zu erhalten. Das heißt, es war notwendig, Zehntausende von Zellen zusammenzusetzen (natürlich bereits nicht lebensfähig), die RNA zu entfernen und zu sequenzieren.
Das Problem ist, dass sich Zellen oft voneinander unterscheiden. Es wird viele biologische Variationen geben, da für viele Prozesse - zum Beispiel Entwicklung, Immunologie oder Onkologie - eine große Wechselwirkung zwischen Zellen unterschiedlicher Funktionalität besteht. Und wenn zum Beispiel eine Biopsie durchgeführt wird und viele Zellen herausgezogen werden, wird eine Mischung erhalten. Und wenn Sie nur die Erwartung dieser RNAs für alle Zellen annehmen, verlieren Sie die Varianz. Und du verstehst sie nicht und kannst sie nicht studieren.
Dementsprechend gab es eine Anfrage der Community, dies auf Einzelzellenebene zu tun. Und das haben sie vor 10 Jahren gelernt. Das ist sehr cool, für viele Bereiche ist es sehr wichtig. Sie können sehr tief in das System schauen und sehen, welche Art von Zellen sich auf mikroskopischer Ebene befinden. Es gibt aber auch Einschränkungen. Eine davon ist, dass Sie Ihre räumlichen Informationen verlieren. Relativ gesehen müssen Sie für die RNA-Sequenzierung ein Stück Gewebe entnehmen, in Zellen schneiden und Ihre Einzelzell-RNA-Sequenz durchführen.
Auf freundschaftliche Weise besteht jedoch eine große Funktionalität darin, wie Zellen im Raum miteinander interagieren. Und dafür entwickelten sie die spezielle Transkriptomik-Technologie - die Fähigkeit, RNA zu messen, ohne räumliche Informationen zu verlieren.
Einer der Haupttricks hierfür ist die Verwendung eines Mikroskops: Sie nehmen Ihr Gewebe, fixieren es - das heißt, Sie nehmen eine Reihe von Zellen und Sie haben es im Mikroskop fixiert. Und dann senden Sie kleine Sonden an dieses Gewebe, die zwei Elemente enthalten: Eines davon ist sehr spezifisch für Ihre RNA und bindet nur an die Gene, die wichtig sind. Und die zweite wird eine leuchtende fluoreszierende Markierung sein. Sie können ein Mikroskop mit einer bestimmten Frequenz der Welle auf das Gewebe richten und bestimmen, wie viele Glühwürmchen in den Zellen aufleuchten. Dementsprechend wird es so viele RNA-Moleküle geben. Tatsächlich sind die Aufgaben, die ich mache, die Schnittstelle zwischen spezieller Transkriptomik und Einzelzell-RNA-Sequenzierung. Relativ gesehen entwickle ich hier kleine Mäuse; Ich habe Daten über Einzelzellen und spezielle Transkriptomik.und ich versuche, die Zellen, die ich im speziellen Kontext sehe, mit denen abzugleichen, die ich in der Einzelzell-RNA-Sequenz sehe.
Ich werde auf Probleme eingehen, die im Prinzip für Technikfreaks und ML-Ingenieure von Interesse sein könnten. Ich habe drei Arten von Aufgaben identifiziert, die derzeit gefragt sind und die alle auf dem Gebiet der Medizin liegen. Die Medizin erhält jetzt viele Ressourcen, viel Geld, viele Daten.
Die erste Art von Aufgabe ist die Wirkstoffentdeckung. Es gibt eine Krankheit, sie muss geheilt werden, dafür muss man ein Medikament finden. Wie kann diese Aufgabe detaillierter zusammengefasst werden? Sie müssen die Zusammensetzung einer Chemikalie finden, die in eine Pille oder Kapsel gegeben und an den Körper gesendet werden kann, und dann binden die Moleküle spezifisch an diese Proteine, jene Ziele, die, wenn ihr Zustand geändert wird, den Zustand der Krankheit ändern - relativ gesehen heilen.
Hier gibt es mehrere Stufen. Eine davon ist die Identifizierung / Validierung von Zielen. Man muss irgendwie vorhersagen können, welche Moleküle gebunden werden müssen, damit sich der Krankheitszustand ändert. Dazu wird eine große Menge von Daten gesammelt: Sie nehmen kranke Menschen, Sie nehmen gesunde Menschen, Sie messen viele verschiedene Parameter von ihnen. Sie sequenzieren DNA, RNA, Transkriptomik, Proteomik - den Zustand von Proteinen.
Als nächstes versuchen Sie zu bestimmen, welche der Parameter der Zellen von Kranken sich speziell auf Kranke und welche auf Gesunde beziehen. Das heißt, zu bestimmen, welche Moleküle möglicherweise mit der Krankheit korrelieren. Dies ist einerseits. Auf der anderen Seite müssen Sie immer noch solche Moleküle finden, die medikamentös sind - das heißt, die das Potenzial haben, sich an aktive Chemikalien zu binden, die Sie zur Heilung an den Körper senden. Hier müssen Sie viele Parameter messen: Bindung, Proteinfaltung und so weiter.
Hierzu wird jetzt aktives maschinelles Lernen verwendet. Das heißt, Sie betrachten verschiedene Proteinverbindungen und versuchen anhand bekannter Ziele vorherzusagen, ob ein bestimmtes Ziel gut ist. Darüber hinaus muss man auch das richtige Medikament synthetisieren. Das heißt, Sie müssen eine solche chemische Zusammensetzung des Moleküls finden, die spezifisch an das Protein binden kann, mit dem Sie Kontakt aufnehmen müssen, und im Prinzip in den Körper gelangen kann, sich in Wasser auflösen kann und so weiter. Es gibt viele Funktionen, die optimiert werden müssen. Es ist schwierig, es mit den Händen zu tun, aber es kann anhand der Tatsache vorhergesagt werden, dass Sie bereits bekannte Medikamente haben, und Sie vergleichen das neue potenzielle Medikament mit den bekannten und sagen voraus, wie erfolgreich es möglicherweise sein könnte. All dies ist auf der Ebene der Vorhersage; dann muss es validiert, wirklich gezeigt werden,dass es funktioniert. Aber Arzneimittelvorhersagen sind der Schlüssel, um Geld und Zeit für Forschung zu sparen. Das ist sehr relevant.
Die zweite Art von Problem, die mit der ersten verbunden ist, besteht relativ gesehen darin, die Biomarker der Krankheit zu finden. Krebs ist ein gutes Beispiel. Ein Grund, warum er so schwer zu behandeln ist, ist, dass er so unterschiedlich ist und es so viele Unterschiede zwischen zwei Menschen gibt. Krebs ist im Allgemeinen, wenn sich eine bestimmte Anzahl von Mutationen angesammelt hat, die zum Zellabbau geführt haben. Und anstatt ihre Funktion zu erfüllen, beginnt sich die Zelle einfach sehr schnell zu teilen und gesunde Zellen zu ersetzen. Dies tötet allmählich den Körper. Es gibt jedoch viele Mechanismen, aufgrund derer die Zelle zusammenbricht. Der Krebs einer Person ist nicht der Krebs einer anderen Person, und ein Medikament, das bei einer Person wirkt, wirkt möglicherweise nicht bei einer anderen Person. Dementsprechend ist es sehr wichtig, schnell bestimmen zu können, welche Gene und anderen Parameter untersucht werden müssen, um zu verstehen, dass eine Person an einer bestimmten Krankheit leidet. Das heißt, Sie müssen Biomarker finden.Hierzu werden Datenbanken verwendet. Jetzt werden Daten verschiedener Formate von einer großen Anzahl gesunder und kranker Menschen aktiv gesammelt. Sie müssen die Ausgabe kristallisieren; Eine Person kann geheilt sein oder auch nicht, und Sie müssen verstehen, welche Art von Menschen mit was krank werden. Wenn Sie schnell genau das finden, was kaputt gegangen ist, können Sie es heilen.
Der dritte Bereich, der sich derzeit entwickelt, ist lustig, aber dies ist Text Mining. In der Biologie gibt es mittlerweile viel Literatur, eine sehr große Anzahl von Labors beschäftigt sich mit einer Vielzahl von Dingen. Tatsächlich finden Menschen oft Dinge - etwa Protein-Protein-Wechselwirkungen oder Arzneimittel-Protein-Wechselwirkungen. Es geschieht unabhängig voneinander in verschiedenen Teilen der Welt und sie wissen nicht, wie es interagieren kann. Text Mining untersucht verschiedene Artikel, die veröffentlicht werden, und erstellt eine Datenbank. Das heißt, wenn an einer Stelle festgestellt wurde, dass ein Protein mit dem zweiten Protein interagiert, und an einer anderen Stelle, dass das zweite Protein von einem bestimmten Arzneimittel behandelt werden kann, stellt sich heraus, dass dieses Arzneimittel auch das ursprüngliche Protein beeinflussen kann. Ein Interaktionsdiagramm wird erstellt und Sie können neue, zuvor nicht gefundene Interaktionen vorhersagen.
Eine andere Art von Problem, die ich erwähnen wollte und die meiner Meinung nach sehr interessant ist - das ist die Bildanalyse. Im Allgemeinen ist Bild ein leistungsstarkes Datenformat, das in der Biologie sehr häufig und häufig verwendet wird, da Sie anhand des Aussehens einer Zelle viel darüber verstehen können.
Wenn sich eine große Anzahl mikroskopischer Bilder ansammelt, müssen Sie diese schnell analysieren und Vorhersagen treffen können. Ein häufiges Beispiel ist wiederum Krebs; Sie machen eine Biopsie und sehen, wie gesunde und kranke Zellen miteinander verbunden sind. Sie malen sie - den Kern in einer Farbe, das Zytoplasma in einer anderen. Dann versuchen Sie vorherzusagen: Ist dieses Gewebe mit einem Tumor oder nicht?
Für eine grundlegendere Forschung ist die Verarbeitung eines Bildes mit einem Mikroskop bereits schwieriger. Menschen möchten bestimmte Organellen, Moleküle oder Proteine betrachten und dementsprechend verfolgen, wie Zellen miteinander interagieren, wie sie sich entwickeln und so weiter. Die Menschen haben gelernt, verschiedene Elemente der Zelle zu färben, und dies geschieht mit Hilfe fluoreszierender Proteine. Sie nehmen, was Sie wollen, und hängen das markierte Protein daran an. Und wenn Sie ein Licht darauf werfen, leuchtet es auf und Sie werden verstehen, dass sich diese Organellen, Proteine oder RNA an einem bestimmten Ort befinden. Und dann verfolgen Sie, wie die Zellen interagieren. Dies erfordert auch eine Bildanalyse, da viele Bilder vorhanden sind und diese in der Regel keine sehr gute Auflösung aufweisen. Und Sie müssen eine gute Auflösung von schlammigen Bildern erhalten. Tatsächlich steht die Gemeinschaft nicht still;Menschen schreiben neuronale Netze, ändern verschiedene Parameter und so weiter. Aber Daten entwickeln sich und Methoden müssen sich mit ihnen entwickeln. Das heißt, diese Dinge müssen Hand in Hand gehen.
Die aktuelle Richtung, über die viele Labore nachdenken, ist "wie man die Zeit erobert". Das heißt, sehr oft gibt es sowohl bei der Sequenzierung als auch bei der Bildanalyse usw. ein solches Problem: Es gibt eine Momentaufnahme des Systems, aber es ist statisch. Sie nehmen zu einem bestimmten Zeitpunkt eine Messung vor. Und Sie verstehen nicht, wie sich die Zellen weiterentwickeln werden. Einer der Ansätze zur Lösung dieses Problems ist die Lebensbildgebung. Wenn Sie keine Zellen abtöten, sondern sie in der Umgebung platzieren, in der sie sich entwickeln, interagieren usw., und alle 10 Sekunden mit einem Mikroskop einen Schnappschuss machen, können Sie die Bewegungsbahnen, Interaktionen usw. wiederherstellen. Es gibt jedoch eine Einschränkung: Zum Beispiel sind fluoreszierende Stempel für die Lebensbildgebung nicht sehr gut geeignet, da sie, wenn Sie ein Licht auf einen Stempel richten, Strahlung abgeben, die für die Zelle giftig ist. Die Zelle beginnt zu sterben.Es muss ein Kompromiss gefunden werden: Einerseits möchten Sie den Käfig so gesund wie möglich halten, andererseits möchten Sie mehr Schnappschüsse machen - aber je mehr Sie sie aufnehmen, desto schneller stirbt er.
Und hier gibt es einen solchen Ansatz: Die Menschen versuchen nun, das Schicksal der Zelle mit Hilfe einer minimalen Anzahl fluoreszierender Markierungen zu bestimmen, aber tatsächlich - nur mit Hilfe der Mikrokontur des Kerns und der Zelle. Es ist wie bei der Gesichtserkennung: Früher konnte man es mit sichtbaren Augen, Mund, Nase und anderen Merkmalen machen, aber jetzt muss man es nur noch mit der Nase machen, weil man eine Sonnenbrille auf den Augen und eine Maske auf dem Mund haben kann. Das heißt, das Problem wird komplizierter und hier das Gleiche. Es ist notwendig, biologische Parameter mit einer kleinen Menge an Informationen zu berechnen, und es gibt eine große Anzahl von Aufgaben.
Es gibt viele Aufgaben, es gibt viele Datentypen. Alle Parameter von Zellen, Organismen und anderen Dingen werden gemessen. Dies ist ein sehr interessanter Bereich. Ich hoffe, wenn du vorher an sie gedacht hast, dann habe ich dir nicht geglaubt.
Was ist vorher passiert?
- , Senior Software Engineer Facebook — ,
- , ML- — , Data Scientist
- , EO LastBackend — , 15 .
- , Vue.js core team member, GoogleDevExpret — GitLab, Vue Staff-engineer.
- , DeviceLock — .
- , RUVDS — . 1. 2.
- , - . — .
- , Senior Digital Analyst McKinsey Digital Labs — Google, .
- «» , Duke Nukem 3D, SiN, Blood — , .
- , - 12- — ,
- , GameAcademy — .
- , PHP- Badoo — Highload PHP Badoo.
- , CTO Delivery Club — 50 43 ,
- , Doom, Quake Wolfenstein 3D — , DOOM
- , Flipper Zero —
- , - Google — Google-
- .
- Data Science ? Unity
- c Revolut
- : ,
- — IT-
- — «Docker » , Devops,