Sie können während eines Gesprächs nicht nur auf den Lippen lesen, sondern auch auf den Händen, die über die Tastatur flattern. Durch die Bewegungen der Hände, die die Angreifer während des Videoanrufs sehen, ist es daher möglich, Passwörter und Codewörter zu erraten, die auf einer herkömmlichen QWERTZ-Tastatur eingegeben wurden.
Amerikanische Entwickler haben einen speziellen Algorithmus entwickelt, der die Bewegungen der Konturen der Schultern und Arme des Benutzers, der auf der Tastatur tippt, lesen, analysieren und mit den eingegebenen Zeichen vergleichen kann. Als nächstes erstellt die KI eine Liste mit wahrscheinlich eingegebenen Buchstaben und Zahlen, die es beispielsweise ermöglicht, während der Autorisierung eingegebene Zeichen wiederherzustellen. Und das alles - fast in Echtzeit während einer Videokonferenz.
Es gibt eine Möglichkeit, die eingegebenen Zeichen auf der Tastatur durch das Drücken von Tastenanschlägen zu bestimmen. Dies erfordert den Zugriff auf den Ziel-PC. Die Methode ist jedoch ungenau, da natürliches Rauschen die Wahrnehmung und Analyse stark beeinträchtigt. Darüber hinaus funktioniert die akustische Kryptoanalyse bei Tastaturen mit Tastenanschlägen mit niedriger Amplitude nicht.
Der von Entwicklern der Universität von Texas in San Antonio erfundene Algorithmus berücksichtigt die Geschwindigkeit der Eingabe, die Reihenfolge, in der die Hände verwendet werden, überwacht ihre Bewegung und zählt die wahrscheinliche Anzahl von Buchstaben in einem Wort. Das Arsenal der Anwendung enthält ein Wörterbuch der beliebtesten Wörter, die als Passwörter verwendet werden. Laut den Forschern ist das Videosignal weniger verzerrungsanfällig als Audio.
Der Videoanalyse- und Decodierungsalgorithmus funktioniert wie folgt:
- .
- .
- .
- .
- : .
- .
- , .
Die Forscher testeten den Algorithmus unter verschiedenen Bedingungen.
In einem Fall verwendeten sie ein Wörterbuch mit 65.000 der beliebtesten Wörter und gaben die 50 wahrscheinlichsten in einer Auswahl aus. Die Genauigkeit hing von den verwendeten Webplattformen ab. Die genauesten vorhergesagten Wörter, die in Skype eingegeben wurden. Unter identischen Bedingungen erwies sich dies als 3,4% genauer als Zoom und 8% genauer als Hangouts.
In einem anderen Fall nahmen sie ein Wörterbuch mit viertausend Wörtern. Aber dann waren 75% der eingegebenen Wörter auf der Liste der 200 wahrscheinlichsten Wörter.
Eine interessante Nuance: Die Arbeit des Algorithmus hängt stark von der Kleidung der Probanden ab. Zum Beispiel sind Menschen mit bloßen Händen anfälliger für Angriffe. Die Erkennungsgenauigkeit der eingegebenen Zeichen, wenn die Teilnehmer des Experiments ärmellose Kleidung trugen, betrug 81,7% gegenüber 74,4% und 73% der Genauigkeit mit langen bzw. kurzen Ärmeln.
Der Schreibstil und die Erkennungsgenauigkeit werden vom Tastaturtyp und dem Abstand zwischen den Tasten beeinflusst. Wie sich herausstellte, ist dies jedoch für die Genauigkeit nicht so wichtig. Die Logitech-Tastatur ist deutlich größer als die Anker-Tastatur, die Genauigkeit ist jedoch nahezu identisch.
Zusätzlich zum Testen in einer Laborumgebung beobachteten die Entwickler 10 Teilnehmer in ihrer typischen häuslichen Umgebung: sieben Männer und drei Frauen. Alle Teilnehmer hatten ungefähr die gleiche Schreibgeschwindigkeit von 3,7 Klicks pro Sekunde und eine Fehlerrate von 86,7%. Für die Reinheit des Experiments wurden eine Reihe von Randbedingungen eingeführt: Anrufdauer von 30 Minuten, empfohlene zehnminütige PC-Aktivitäten usw.
Als Ergebnis des Experiments stellte sich heraus, dass zu Hause nicht jeder die Position der Kameras verwendete, ähnlich wie unter Laborbedingungen. Darüber hinaus wirkte sich eine andere Auflösung der Webcams auf die Genauigkeit der vom Algorithmus erzeugten Informationen aus. In einem Fall bedeckte das Haar den Unterarmbereich vollständig, so dass der Algorithmus keine Analyse durchführen konnte. Im Allgemeinen ist es also nicht so schwierig, sich zu verteidigen.