Drei Wale der Sprachanalyse, ohne die InfoWatch Traffic Monitor nicht funktionieren kann

Bild



Hallo! Heute werden wir darüber sprechen, wie die Linguistik in die Arbeit eines DLP-Systems integriert ist und wie sie uns hilft, wichtige Daten vor böswilligen Angriffen zu schützen.



In jüngster Zeit hat die Notwendigkeit für Unternehmen, Daten vor dem Verlust vertraulicher Informationen zu schützen, erheblich zugenommen. Die Verlagerung von Mitarbeitern auf eine entfernte Arbeitsweise hat zu einer deutlichen Zunahme von Cyberangriffen und Verbrechen im Bereich der Informationssicherheit geführt: Laut Analystenberichten stieg die Zahl der vertraulichen Informationslecks russischer Unternehmen im ersten Drittel des Jahres 2020 um 38%, und dieser Trend entwickelt sich weiter.



In der Regel werden Rechtsdokumente, Finanzdokumente, personenbezogene Daten von Mitarbeitern und Kunden usw. angegriffen. Um vertrauliche Daten vor Eindringlingen zu schützen, installieren Unternehmen DLP-Systeme (Data Loss Prevention), um Informationslecks zu vermeiden.



Die linguistische Analysetechnologie ist tief in die Arbeit vieler DLP-Systeme integriert, da die Inhaltsanalyse eine unveränderliche Grundlage für die Filterung des Datenverkehrs darstellt, um Verstöße zu erkennen, und die Qualität der Technologie maßgeblich die Qualität des Produkts selbst bestimmt.



Sprachanalyse: Wie es funktioniert



Die sprachliche Analysetechnologie ermöglicht es, das Thema und die Vertraulichkeit der analysierten Informationen anhand der darin enthaltenen Begriffe und ihrer Kombinationen automatisch zu bestimmen .



Zunächst führen wir eine erste Analyse der Dokumente durch: Nachdem das Kundenunternehmen das Volumen und den Inhalt von Dokumenten bestimmt hat, die vertraulich sind und geschützt werden müssen (es ist wünschenswert, dass für jede Kategorie geschützter Informationen mindestens zehn Muster von Dokumenten vorhanden sind). Wenn der Kunde nicht versteht, welche Dokumente er bereitstellen muss, können Sie sich auf die Liste der eingeschränkten Informationen konzentrieren, die in der Organisation des Kunden übernommen wurden. Der Linguist hebt die Begriffe hervor- Wörter oder Ausdrücke, die für eine bestimmte Branche charakteristisch sind und die Besonderheiten des Textes angeben. Hierbei ist es äußerst wichtig, dass die Begriffe so oft wie möglich in den Texten von Dokumenten in einer Branche und äußerst selten in einer anderen Branche vorkommen (für den Bankensektor können typische Begriffe beispielsweise "Barguthaben", "Abwicklungs- und Gelddienstleistungen" oder "Einzahlung" sein).



- Als nächstes werden Begriffe kategorisiert . Die Anzahl der Kategorien ist nicht deterministisch. Je mehr Kategorien ausgewählt werden, desto heterogener wird die Klassifizierung. Kategorien gruppieren Begriffe in allgemeine konzeptionelle Gruppen, um Informationen klarer zu organisieren.



Bei der Kategorisierung eines Begriffs kann ein Linguist ihn als "Merkmal" definieren. Zu den charakteristischen Begriffen gehören Begriffe, die nur in der Kategorie gefunden werden, in die sie eingegeben wurden, und in keiner der anderen Kategorien vorkommen. Wenn im abgefangenen Text auch nur ein solcher Begriff gefunden wird, gehört dieser Text automatisch zu der Kategorie, in der sich dieser Begriff befindet.



Im Allgemeinen kann es je nach den Besonderheiten der Kategorie drei Begriffe in einer Kategorie geben (die Mindestanzahl nicht charakteristischer Begriffe, bei deren Erkennung das System den Text als vertraulich erkennt), bis zu mehreren Tausend. Wenn dies eine Kategorie ist, die nur aus charakteristischen Begriffen besteht (z. B. "Drogen", "Terrorismus" usw.), kann die Kategorie mehrere tausend Begriffe enthalten. Wenn eine Kategorie aus nicht charakteristischen Begriffen besteht (dies sind in der Regel Kategorien, die auf der Dokumentation des Unternehmens basieren - Personal, Buchhaltung, rechtliche Informationen), ist es ratsam, die Anzahl der Begriffe auf einige Dutzend (von drei auf fünfzig) zu beschränken.



Bild



- Anschließend gibt der Linguist die Kategorien in die Inhaltsfilterdatenbank (BCF) ein., auf deren Grundlage eine sprachliche Analyse stattfindet. Die Inhaltsfilterbasis ist ein hierarchisch strukturiertes Wörterbuch, das eine Liste von Kategorien und Begriffen enthält.



BKF arbeitet als Klassifikator, auf dessen Grundlage die thematische Verteilung der analysierten Informationen erfolgt.



Wenn Sie dem BCF nicht charakteristische Begriffe hinzufügen, wird ihnen eine Gewichtung zugewiesen- eine Zahl von 1 bis 10 (standardmäßig wird beim Erstellen einer Kategorie das Gewicht auf 5 festgelegt). Die Werte der Gewichte für die Begriffe in der Kategorie sollten proportional zum Verhältnis der Häufigkeit der Verwendung von Begriffen im Text sein, und genau die Häufigkeit der Verwendung von Begriffen im Verhältnis zueinander - ihre Häufigkeit im Verhältnis zu den Wörtern im Text, die nicht in der BKF enthalten sind, spielt keine Rolle. Zum Beispiel, wenn sie in einer der BKF-Kategorien enthalten sind Wir werden die Begriffe "Glokaya", "Kuzdra" und "Shtekto" einführen und ihnen die gleichen Gewichte geben (es spielt keine Rolle, ob sie ein Gewicht von 10 oder 1 haben). Dann wird der Text "Glokaya Kuzdra Shteko" die Seiten und Locken Bokrenka mit Relevanz 1 erkannt. Wenn Im weitergeleiteten Text erscheinen die Wörter "glokaya" und "kuzdra" zehnmal und "shteko" - 100mal, die Relevanz des Kategorietextes mit gleicher Gewichtung für alle Begriffe nimmt ab und beträgt ungefähr 0,69.In diesem Fall ist es sinnvoll, das Gewicht der Begriffe „gloka“ und „kuzdra“ auf 1 und den Begriff „shteko“ auf 10 zu setzen. Dann wird die Relevanz des gesendeten Textes 1. Es ist klar, dass es nicht immer möglich ist, ein so strenges Verhältnis einzuhalten, aber es sollte angestrebt werden.



Um die Relevanz eines Textes für eine bestimmte Kategorie zu bestimmen, wird eines der klassischen Suchmodelle verwendet - ein Vektormodell. Dies ist eine ziemlich beliebte Art, mit verschiedenen Sprachobjekten zu arbeiten.



Bild



Die Hauptidee kann wie folgt beschrieben werden: Es gibt einen bestimmten Raum, der durch verschiedene Begriffe definiert ist (in unserem Fall handelt es sich um ein Dokument, das vom System abgefangen wird und Textinformationen enthält). Für das abgefangene Dokument wird ein Vektor erstellt. Der Wert jeder Koordinate des Vektors gibt an, wie oft der entsprechende Begriff in diesem Dokument verwendet wird. Ein ähnlicher Vektor wird für jede BKF-Kategorie konstruiert. Die Dimension der Vektoren ist für alle analysierten Texte gleich und entspricht der Anzahl der Wörter in der BKF.



Dann kann der Relevanzwert der Vektoren als Kosinus des Winkels zwischen ihnen unter Verwendung des Punktprodukts und der Norm berechnet werden: Die



Bild



Kosinusähnlichkeit des abgefangenen Dokuments und der Begriffe aus dem BKF variiert im Bereich von 0 bis 1: Je größer dieser Wert ist, desto ähnlicher ist das Dokument einer bestimmten Kategorie.



Die Technologie der Sprachanalyse auf der Grundlage von Inhaltsfilterungsgrundlagen bietet eine Reihe von Vorteilen gegenüber anderen Textklassifizierungstechnologien (die auch von InfoWatch-Linguisten zur Analyse von Dokumenten verwendet werden, aber später mehr dazu).



Das Hauptunterscheidungsmerkmal von BKF ist seine "Flexibilität" und die Fähigkeit, die Basen an die Bedürfnisse eines bestimmten Unternehmens anzupassen. Linguisten füllen den Inhalt des BKF manuell auf und passen ihn an, wodurch die Technologie für jeden Kunden optimiert wird.



Die auf der BKF basierende Technologie der Sprachanalyse ermöglicht es Ihnen, die erforderlichen Begriffe und Ausdrücke unter Berücksichtigung der Transliteration, des Vorhandenseins von Tippfehlern und der Morphologie zu finden: Beispielsweise reagiert das System mit einem bestimmten Begriff "Transportleasing" sowohl auf "Transportleasing" als auch auf "Transportleasing", d. H. e. zu allen möglichen Kombinationen der Beugung dieses Begriffs mit Druckfehlern. Die Suche wird auf der Grundlage von morphologischen Wörterbüchern durchgeführt (für Russisch ist es das Wörterbuch von A. A. Zaliznyak, für Fremdsprachen - separat erstellte Wörterbücher). Der Tippfehlerdetektor korrigiert nicht die Begriffe im morphologischen Wörterbuch, wodurch vermieden wird, auf Wörter zu reagieren, deren Domerau-Levenshtein-Abstand (1) gleich eins ist.



InfoWatch verfügt über eine große Datenbank mit Branchenwörterbüchern. Wir haben BKF für eine Vielzahl von Geschäftsbereichen entwickelt - vom Weltraum bis zur Energie - wir haben auch engmaschige Grundlagen (zum Beispiel im Islam oder mit dem Quellcode von C ++, Java usw.), die für die spezifischen Zwecke einzelner Unternehmen entwickelt wurden. Es ist auch erwähnenswert, dass wir neben Russisch 95 BKFs in 33 Fremdsprachen haben, wobei die Unterstützung der Morphologie für viele von ihnen berücksichtigt wird.



Autolinguist: Schneller Schutz von Standarddokumenten



In der Regel unterscheidet sich der Workflow eines einzelnen Unternehmens nicht in seiner starken Variabilität. In jeder Abteilung werden Standarddokumente verwendet, die in Bezug auf Inhalt und lexikalischen Inhalt ähnlich sind.



Um solche Dokumente im "Arsenal" von InfoWatch zu schützen und zu klassifizieren, gibt es ein weiteres Tool für die Textdatenanalyse - "Autolinguist".



Wie der Name schon sagt, können Sie mit dieser Technologie typische Dokumente automatisch in vordefinierte Kategorien einteilen, ohne auf manuelle Analysen zurückgreifen zu müssen.



Die Analyse von Dokumenten im Rahmen der Erstellung des BKF ist in der Regel eine lange und energieintensive Arbeit (ein Sprachwissenschaftler benötigt durchschnittlich 2-5 Tage, um Begriffe hervorzuheben, Kategorien zu erstellen und weitere Arbeiten zur Beseitigung falsch positiver und falsch negativer Antworten durchzuführen). Ein Autolinguist kann den Prozess der Kategorisierung von Texten erheblich beschleunigen.



Der Klassifikator verwendet die Bibliothek für lineares maschinelles Lernen, insbesondere den logistischen Regressionsalgorithmus (2) , mit dem die Wahrscheinlichkeit ermittelt werden kann, dass ein Textdokument zu einer bestimmten Kategorie gehört.



Der Benutzer hat die Möglichkeit, die Arbeit des "Autolinguisten" selbst anzupassen: Nachdem zuvor die Schulungssammlung von Dokumenten geladen und der Klassifizierer geschult wurde, kann der Benutzer anschließend neue Kategorien hinzufügen und den Inhalt der Dokumentbasis anpassen.



Textobjekte: Wenn Regex kein Problem, sondern eine Lösung ist



Ein weiteres leistungsstarkes Tool zum Analysieren und Erkennen der erforderlichen Informationen sind Textobjekte - eine Technologie, die auf der Verwendung regulärer Ausdrücke basiert (die, wie Sie wissen, ein äußerst flexibles und praktisches Tool sind, mit dem Sie nahezu alle Suchkriterien angeben können) und zum Schutz von Daten mit einem festen externen Wert verwendet wird Präsentieren von beispielsweise Kreditkartennummern, Bankkontodaten, E-Mail-Adressen usw.



Bild



Ein Textobjekt kann ein oder mehrere Muster regulärer Ausdrücke oder Zeichenfolgen (Wörter oder Phrasen) enthalten. In diesem Fall wird nach einer genauen Übereinstimmung des Wortes mit der Zeichenfolge gesucht, ohne die Besonderheiten der Rechtschreibung und Morphologie zu berücksichtigen.



Um den gefundenen Text oder eine Kombination aus Zahlen und Einstellungen unter Berücksichtigung der Bedürfnisse des Kunden zu überprüfen, ohne den Quellcode der Technologie zu ändern, werden Überprüfungsfunktionen in Lua geschrieben.



Ich werde ein Beispiel für eine Verifizierungsfunktion zum Erkennen internationaler Bankcodes im SWIFT-System geben:



Bild



Die Funktion entfernt das Präfix „SWIFT“, überprüft und gibt den Rest des Textes ohne Trennzeichen zurück.



Neben einer Reihe vorinstallierter Textobjekte (russisch, belarussisch, kasachisch, vietnamesisch, malaiisch, arabisch sowie eine Reihe internationaler Objekte, die Daten aus fast allen Geschäftsbereichen abdecken) haben Benutzer die Möglichkeit, eigene Textobjekte zu erstellen, die für ein bestimmtes Unternehmen einzigartig sind. Zum Beispiel ist es für eine Transportorganisation wichtig, die Fahrgestellnummer von Autos zu kontrollieren, und für eine militärische Struktur - die Nummer eines Soldatenausweises.



Bild



Freunde, in diesem Artikel haben Sie die wichtigsten Feinheiten der Sprachanalyse im InfoWatch Traffic Monitor-System kennengelernt: Inhaltsfilterungsdatenbanken und ihre Grundlagen - Begriffe und Kategorien; "Autolinguist" -Technologie, mit der typische Texte und Textobjekte zur Erkennung von Vorlagendaten unabhängig voneinander klassifiziert werden können.



Trotz der nachgewiesenen Effizienz der Technologien und Entwicklungen, über die wir bereits verfügen, entwickeln wir uns weiterhin aktiv in der semantischen Analyse weiter, ergänzen regelmäßig die vorhandenen und erstellen neue BKF- und Textobjekte und erweitern den Umfang der Sprachtechnologien. Ich werde auf jeden Fall über alle Innovationen und interessanten "Chips" in der Zukunft schreiben.



Kollegen Linguisten, kommentieren, schwierige Fragen stellen, nützliche Links werfen und Ihre Erfahrungen teilen! Lassen Sie uns gemeinsam die Welt zu einem besseren Ort machen!



Verfasser: Volobrinskaya Valeriavaleria_volob






1. , , , , .

2. , .



All Articles