Die Forscher wandten die Stimmungsanalyse auf völlig andere russischsprachige Texte an: Beiträge aus sozialen Netzwerken, Rezensionen, Nachrichtenartikel und Bücher. Infolgedessen waren die Ergebnisse ihrer Forschung auch völlig anders und äußerst interessant. Wer hätte zum Beispiel gedacht, dass Texte mit einem positiven Ton das Erlernen einer Fremdsprache interessanter, aber weniger effektiv machen? In dieser Artikelserie werden wir untersuchen, wie und zu welchen Zwecken die Sentiment-Analyse-Ansätze für russischsprachige Texte angewendet wurden, welche Ergebnisse erzielt wurden, welche Probleme aufgetreten sind und auch ein wenig über vielversprechende Richtungen sprechen.
Im Gegensatz zu früheren Arbeiten habe ich mich auf angewandte Anwendungen konzentriert und nicht auf die Ansätze selbst und deren Qualität der Klassifizierung. Im ersten ArtikelWir diskutierten, was „Stimmungsanalyse“ ist, was es ist und wie es in den letzten 8 Jahren zur Analyse russischsprachiger Texte verwendet wurde. In diesem Teil werden wir uns jede der 32 Hauptstudien, die ich gefunden habe, genauer ansehen. Im dritten und letzten Teil (nächste Woche) werden wir über gemeinsame Herausforderungen für Forscher sowie über vielversprechende Richtungen für die Zukunft sprechen.
NB: Der Artikel wurde für eine wissenschaftliche Zeitschrift geschrieben, daher wird es viele Links zu Quellen geben.
Viele Studien verwendeten Daten aus russischen sozialen Netzwerken und Aggregationsplattformen. Nachfolgend finden Sie eine kurze Beschreibung der beliebtesten russischen und ausländischen Ressourcen sowie Statistiken zu deren Verwendung.
- 90 , . Deloitte [98], , 70 % . 16—24 , .
- YouTube , 62 % . 16—24 , 58—64 %.
- Twitter [98], 5 % . 25—65 , 55—64 .
- LiveJournal , 3 % . 35—44 , .
- Medialogia — , . 500 . 100 . 52 000 900 .
- IQBuzz ist ein Überwachungsdienst, der Informationen aus mehr als 10.000 Medienquellen verarbeitet, darunter Facebook, Twitter, VKontakte, My World, Instagram, 4sq, LiveJournal, LiveInternet, Google, YouTube, RuTube und andere. Das System ist in der Lage, positive und negative Nachrichten automatisch zu identifizieren, zu deduplizieren und komplexe Suchen in der akkumulierten Datenbank durchzuführen.
Im Folgenden werde ich die gefundenen Studien, die darin erzielten Ergebnisse und die Schlussfolgerungen der Autoren beschreiben, die möglicherweise nicht mit meiner Position übereinstimmen.
1. UGC in den sozialen Medien
Viele soziale Netzwerke haben sich zu modernen Instrumenten für soziales Engagement entwickelt [53]. Benutzergenerierte Daten sind eine wichtige und zugängliche Quelle der öffentlichen Meinung oder zumindest eine Reflexion davon, sodass sie Meinungsumfragen ergänzen oder ersetzen können [54]. Benutzergenerierte Daten wurden nach drei Kriterien untersucht:
- Einstellung zu verschiedenen Themen.
- Soziale Stimmungsindizes.
- Merkmale der Benutzerinteraktion mit Daten, die unterschiedliche Stimmungen ausdrücken.
1.1. Einstellung zu verschiedenen Themen
Die häufigsten Themen beim Studium russischsprachiger Texte waren die Probleme der interethnischen Beziehungen und der Migration sowie die Ukraine-Krise. Besonderes Augenmerk wurde auf die Analyse sozialer Spannungen sowie auf andere Themen gelegt.
1.1.1 Ethnische Gruppen und Migranten
Die Probleme der interethnischen Beziehungen und Migration sowie verwandte Themen wurden mit gut entwickelten soziologischen Methoden eingehend untersucht. Die rasche Entwicklung des Internets und der Verarbeitung natürlicher Sprache hat jedoch die Erforschung eines relativ neuen Ansatzes ermöglicht. Social Media ermöglicht es Einzelpersonen und Gruppen, offen an Konflikten teilzunehmen. Im Internet können sich Urteile über Migrations- und ethnische Gruppenprobleme viel schneller verbreiten und ein viel breiteres Publikum erreichen als vor dem Internetzeitalter [54]. Weitere akademische Untersuchungen haben gezeigt, dass negative Online-Inhalte ethnische Offline-Konflikte [99] und Hassverbrechen [100] beeinflussen. Auf diese Weise,Mit der Entwicklung von Internet-Technologien steigt die Bedeutung der Analyse der Probleme interethnischer Beziehungen und Migration auf der Grundlage von Online-Inhalten.
Eine von Bodrunova und Kollegen durchgeführte Studie konzentrierte sich auf die Haltung der russischsprachigen Online-Community gegenüber Migranten im öffentlichen Diskurs [81]. Die Autoren haben vom 4. Februar bis 19. Mai 2013 363.579 Beiträge von führenden russischen Bloggern gesammelt. Unter Anwendung der in [59], [101] beschriebenen Strategie haben die Forscher, die Latent Dirichlet Allocation [102] verwenden, relevante Diskussionen identifiziert. Wir haben dann einige der Diskussionen und Stimmungsklassen manuell zugeordnet. Anschließend haben wir ein Modell der binomialen logistischen Regression (Binomial Logistic Regression [32]) für eine Reihe von Textklassifizierungsproblemen trainiert, einschließlich der Klassifizierung von Emotionen. Den Ergebnissen zufolge wurden alle Migranten negativ wahrgenommen, und vor allem diejenigen, die aus dem Nordkaukasus kamen, im Vergleich zu Einwanderern aus Zentralasien und den Amerikanern.Es gab keine positive Einstellung gegenüber Europäern oder Amerikanern. Gleichzeitig wurden Europäer, Amerikaner und Kaukasier als Angreifer und nicht als Opfer wahrgenommen. Zentralasiaten wurden als Außerirdische mit negativen Konnotationen beschrieben. Im Allgemeinen wurden die Europäer nicht als Fremde oder Partner wahrgenommen, die Amerikaner als gefährlich und die Juden als völlig harmlos. Die Autoren der Studie argumentieren, dass die postsowjetische mentale Teilung der Bevölkerung nicht vollständig mit den aktuellen geografischen Grenzen übereinstimmt, aufgrund derer zuvor enge Gruppen bereits als getrennte Nationen mit ihren eigenen politischen Agenden wahrgenommen werden. Einer der Hauptnachteile dieser Arbeit ist das Fehlen einer Bewertung der Qualität der Datenbeschreibung und der Spezifikation von Klassifizierungsmetriken.Zentralasiaten wurden als Außerirdische mit negativen Konnotationen beschrieben. Im Allgemeinen wurden die Europäer nicht als Fremde oder Partner wahrgenommen, die Amerikaner als gefährlich und die Juden als völlig harmlos. Die Autoren der Studie argumentieren, dass die postsowjetische mentale Teilung der Bevölkerung nicht vollständig mit den aktuellen geografischen Grenzen übereinstimmt, aufgrund derer zuvor enge Gruppen bereits als getrennte Nationen mit ihren eigenen politischen Agenden wahrgenommen werden. Einer der Hauptnachteile dieser Arbeit ist das Fehlen einer Bewertung der Qualität der Datenbeschreibung und der Spezifikation von Klassifizierungsmetriken.Zentralasiaten wurden als Außerirdische mit negativen Konnotationen beschrieben. Im Allgemeinen wurden die Europäer nicht als Fremde oder Partner wahrgenommen, die Amerikaner als gefährlich und die Juden als völlig harmlos. Die Autoren der Studie argumentieren, dass die postsowjetische mentale Teilung der Bevölkerung nicht vollständig mit den aktuellen geografischen Grenzen übereinstimmt, aufgrund derer zuvor enge Gruppen bereits als getrennte Nationen mit ihren eigenen politischen Agenden wahrgenommen werden. Einer der Hauptnachteile dieser Arbeit ist das Fehlen einer Bewertung der Qualität der Datenbeschreibung und der Spezifikation von Klassifizierungsmetriken.dass die postsowjetische mentale Teilung der Bevölkerung nicht vollständig mit den gegenwärtigen geografischen Grenzen übereinstimmt, aufgrund derer zuvor enge Gruppen bereits als getrennte Nationen mit ihren eigenen politischen Agenden wahrgenommen werden. Einer der Hauptnachteile dieser Arbeit ist das Fehlen einer Bewertung der Qualität der Datenbeschreibung und der Spezifikation von Klassifizierungsmetriken.dass die postsowjetische mentale Teilung der Bevölkerung nicht vollständig mit den gegenwärtigen geografischen Grenzen übereinstimmt, aufgrund derer zuvor enge Gruppen bereits als getrennte Nationen mit ihren eigenen politischen Agenden wahrgenommen werden. Einer der Hauptnachteile dieser Arbeit ist das Fehlen einer Qualitätsbewertung der Datenbeschreibung und der Spezifikation von Klassifizierungsmetriken.
Das von Koltsova [82] geleitete Team schätzte unter Verwendung angepasster Methoden aus früheren Arbeiten ([103], [104]) das Gesamtvolumen der Diskussionen über interethnische Beziehungen auf den Websites russischsprachiger sozialer Netzwerke. Um ein Primärkorpus von 2.660.222 Texten zu erstellen, entwickelten die Autoren eine komplexe Liste von Ethnonymen und Bigrammen, die 97 ethnische Gruppen im postsowjetischen Gebiet abdeckte. Anschließend wurde mithilfe des manuellen Markups ein Trainingsdatensatz mit 7.181 Texten erstellt, von denen jeder von drei Experten zu verschiedenen Kriterien kommentiert wurde, darunter das Vorhandensein von Konflikten zwischen Gruppen, positive Kontakte zwischen Gruppen und insgesamt ein negativer oder positiver Ton. Um Emotionen zu klassifizieren, trainierten die Autoren ein logistisches Regressionsmodell an einem markierten Datensatz [32] und erreichten F 1 = 0,75 für positive Stimmung und F.1 = 0,68 für negativ. Die Autoren stellten fest, dass die Aufmerksamkeit für ethnische Gruppen zwischen verschiedenen Gruppen und Regionen sehr unterschiedlich ist. Basierend auf dieser Untersuchung verbesserte das von Koltsova geleitete Team die Qualität der erzielten Ergebnisse und erhöhte die Anzahl der Vorurteile, die in den folgenden Arbeiten zu finden sind [83]. Zunächst erhöhten die Autoren den Datensatz für die manuelle Verarbeitung von 7.181 auf 14.998 eindeutige Texte. Anschließend wurden die Texte von mindestens drei unabhängigen Experten bewertet. Als nächstes lehrten die Autoren ein logistisches Regressionsmodell, um Texte unter Verwendung der besten Hyperparameter aus der vorherigen Studie in drei Kategorien (positive, neutrale und negative Einstellung) zu unterteilen. Dies trug dazu bei, die Klassifizierungsmetriken erheblich zu verbessern. Durchschnittswerte für Stimmungen waren: P = 0,67, R = 0,55 und F 1= 0,58.
Nagorny untersuchte in seiner Arbeit [84] das Thema der Struktur ethnischer Diskussionen in russischsprachigen sozialen Netzwerken. Basierend auf einer Liste von mehr als 4.000 Wörtern im Zusammenhang mit ethnischen Diskussionen sammelte der Autor für den Zeitraum von Januar 2014 bis Dezember 2016 2.659.849 Texte von VKontakte und IQBuzz. Als nächstes verwendete der Autor ISLDA [26], eine Modifikation des LDA-Algorithmus, der am HSE Internet Research Laboratory entwickelt wurde. Um die Stimmungsklasse zu berechnen, verwendete Nagorny SentiStrength [22] mit dem russischsprachigen Wörterbuch der Emotionen LINIS Crowd [26]. Für jedes Thema wurde der Polaritätsindex als die Summe der Produkte der Wahrscheinlichkeit dieses Themas im Text durch den Wert der entsprechenden Emotion geteilt durch die Gesamtbedeutung des Themas berechnet. Nach der Analyse des thematischen Profils ethnischer Diskussionen, die mit Hilfe der LDA geführt wurden, identifizierte Nagorny die negativsten und wichtigsten Themen. Es enthüllte,dass sich der Großteil der Diskussionen auf die russisch-ukrainischen Beziehungen im Zusammenhang mit dem jüngsten Konflikt zwischen den Ländern bezog. Infolgedessen war es schwierig, interethnische Themen von politischen zu trennen, da der Konflikt die Polarität der Diskussionen im Internet beeinflusste. Die negativsten Diskussionen beziehen sich auf die usbekische Staatsangehörigkeit und die türkisch-armenischen Beziehungen im Zusammenhang mit dem Völkermord an den Armeniern. Diese Studie hat jedoch Nachteile. Erstens ist nicht genau klar, wie die Daten gesammelt wurden. Obwohl IQBuzz behauptet, alle Erwähnungen im Internet zu verfolgen, ist es unmöglich, dies ohne vollständigen Zugriff auf VK-Nachrichten zu überprüfen. Zweitens wurden die Klassifizierungsmetriken nicht an großen Textsätzen gemessen, sodass es schwierig ist, die Qualität der klassifizierten Emotionen zu testen.Infolgedessen war es schwierig, interethnische Themen von politischen zu trennen, da der Konflikt die Polarität der Diskussionen im Internet beeinflusste. Die negativsten Diskussionen beziehen sich auf die usbekische Staatsangehörigkeit und die türkisch-armenischen Beziehungen im Zusammenhang mit dem Völkermord an den Armeniern. Diese Studie hat jedoch Nachteile. Erstens ist nicht genau klar, wie die Daten gesammelt wurden. Obwohl IQBuzz behauptet, alle Erwähnungen im Internet zu verfolgen, ist es unmöglich, dies ohne vollständigen Zugriff auf VK-Nachrichten zu überprüfen. Zweitens wurden die Klassifizierungsmetriken nicht an großen Textsätzen gemessen, sodass es schwierig ist, die Qualität der klassifizierten Emotionen zu testen.Infolgedessen war es schwierig, interethnische Themen von politischen zu trennen, da der Konflikt die Polarität der Diskussionen im Internet beeinflusste. Die negativsten Diskussionen beziehen sich auf die usbekische Staatsangehörigkeit und die türkisch-armenischen Beziehungen im Zusammenhang mit dem Völkermord an den Armeniern. Diese Studie hat jedoch Nachteile. Erstens ist nicht genau klar, wie die Daten gesammelt wurden. Obwohl IQBuzz behauptet, alle Erwähnungen im Internet zu verfolgen, ist es unmöglich, dies ohne vollständigen Zugriff auf VK-Nachrichten zu überprüfen. Zweitens wurden die Klassifizierungsmetriken nicht an großen Textsätzen gemessen, sodass es schwierig ist, die Qualität der klassifizierten Emotionen zu testen.Die negativsten Diskussionen beziehen sich auf die usbekische Staatsangehörigkeit und die türkisch-armenischen Beziehungen im Zusammenhang mit dem Völkermord an den Armeniern. Diese Studie hat jedoch Nachteile. Erstens ist nicht genau klar, wie die Daten gesammelt wurden. Obwohl IQBuzz behauptet, alle Erwähnungen im Internet zu verfolgen, ist es unmöglich, dies ohne vollständigen Zugriff auf VK-Nachrichten zu überprüfen. Zweitens wurden die Klassifizierungsmetriken nicht an großen Textsätzen gemessen, sodass es schwierig ist, die Qualität der klassifizierten Emotionen zu testen.Die negativsten Diskussionen beziehen sich auf die usbekische Staatsangehörigkeit und die türkisch-armenischen Beziehungen im Zusammenhang mit dem Völkermord an den Armeniern. Diese Studie hat jedoch Nachteile. Erstens ist nicht genau klar, wie die Daten gesammelt wurden. Obwohl IQBuzz behauptet, alle Erwähnungen im Internet zu verfolgen, ist es unmöglich, dies ohne vollständigen Zugriff auf VK-Nachrichten zu überprüfen. Zweitens wurden die Klassifizierungsmetriken nicht an großen Textsätzen gemessen, sodass es schwierig ist, die Qualität der klassifizierten Emotionen zu testen.Daher ist es schwierig, die Qualität klassifizierter Emotionen zu testen.Daher ist es schwierig, die Qualität klassifizierter Emotionen zu testen.
Die Forscher Borodkina und Sibirev von der Universität St. Petersburg untersuchten Diskussionen auf russischsprachigem Twitter im Zusammenhang mit den Problemen der internationalen Migration sowie mit verschiedenen Problemen im Zusammenhang mit der Migration [55]. Die Autoren verwendeten 13.200 Beiträge, die zwischen November 2017 und Februar 2018 veröffentlicht wurden. Diese Daten wurden zum Thema "Migration" und verwandten Stichwörtern erhoben. Dann haben die Autoren unter Verwendung des Ohai-Koeffizienten die Ähnlichkeit der Tags gemessen und nach dem Pareto-Prinzip unbedeutende, schwache Glieder aus dem Netzwerkgraphen entfernt. Für die Stimmungsanalyse wurde ein Klassifikator basierend auf einem Unterstützungsvektormodell trainiert [33]. Um die Zusammenhänge zwischen Merkmalen (z. B. Emotionen, Merkmale des Inhalts) zu bestimmen, wurden geeignete Analysemethoden verwendet. Es stellte sich heraus, dass unter Russen, die in verschiedenen Ländern leben, eine sehr ähnliche Haltung gegenüber Migranten besteht.Ein erheblicher Teil der Nutzer äußert sich negativ zu Migranten anderer Nationalitäten. Hauptthemen: Risiken für Kultur und Sicherheit im Zusammenhang mit Terrorismus und illegaler Migration, Menschenrechte im Allgemeinen, Verletzung der Rechte von Einwanderern in Russland im sozialen und wirtschaftlichen Bereich. Diese Studie hat einige kleine Nachteile. Der Ansatz der Stimmungsanalyse wird kurz beschrieben, ohne die Details der Vorverarbeitungsphase, der Modellhyperparameter und der endgültigen Qualität der Klassifizierung unter Verwendung des trainierten Modells. Darüber hinaus bietet die Kern-API von Twitter nur einen teilweisen Zugriff auf alle Beiträge, sodass die Repräsentativität der analysierten Daten fraglich ist.im Zusammenhang mit Terrorismus und illegaler Migration, Menschenrechten im Allgemeinen, Verletzung der Rechte von Einwanderern in Russland im sozialen und wirtschaftlichen Bereich. Diese Studie hat einige kleine Nachteile. Der Ansatz der Stimmungsanalyse wird kurz beschrieben, ohne die Details der Vorverarbeitungsphase, der Modellhyperparameter und der endgültigen Qualität der trainierten Modellklassifizierung. Darüber hinaus bietet die Kern-API von Twitter nur einen teilweisen Zugriff auf alle Beiträge, sodass die Repräsentativität der analysierten Daten fraglich ist.im Zusammenhang mit Terrorismus und illegaler Migration, Menschenrechten im Allgemeinen, Verletzung der Rechte von Einwanderern in Russland im sozialen und wirtschaftlichen Bereich. Diese Studie hat einige kleine Nachteile. Der Ansatz der Stimmungsanalyse wird kurz beschrieben, ohne die Details der Vorverarbeitungsphase, der Modellhyperparameter und der endgültigen Qualität der Klassifizierung unter Verwendung des trainierten Modells. Darüber hinaus bietet die Kern-API von Twitter nur einen teilweisen Zugriff auf alle Beiträge, sodass die Repräsentativität der analysierten Daten fraglich ist.Modellhyperparameter und die endgültige Qualität der Klassifizierung unter Verwendung des trainierten Modells. Darüber hinaus bietet die Kern-API von Twitter nur einen teilweisen Zugriff auf alle Beiträge, sodass die Repräsentativität der analysierten Daten fraglich ist.Modellhyperparameter und die endgültige Qualität der Klassifizierung unter Verwendung des trainierten Modells. Darüber hinaus bietet die Kern-API von Twitter nur einen teilweisen Zugriff auf alle Beiträge, sodass die Repräsentativität der analysierten Daten fraglich ist.
Daher haben Forscher im Rahmen der Untersuchung von Migration und interethnischen Beziehungen hauptsächlich benutzergenerierte Daten aus sozialen Netzwerken untersucht, wobei eine Kombination aus thematischer Modellierung und Stimmungsanalyse verwendet wurde. Das Konzept der ethnischen Zugehörigkeit ist in der akademischen Literatur gut erforscht, aber aus Sicht der Computerlinguistik wird die Definition der Nationalität in benutzergenerierten Texten auf die Aufgabe reduziert, ethnische Marker zu identifizieren, die von den Autoren dieser Texte verwendet werden [54]. Um relevante Texte zu identifizieren, erstellen Forscher daher häufig Listen mit Markern mit ethnischem Status und suchen nach Texten, die solche Marker enthalten. Das Extrahieren repräsentativer Daten ist jedoch schwierig, da nicht alle Plattformen vollständigen Zugriff auf alle ihre Informationen bieten.Die Gefühle werden dann normalerweise auf Dokument- oder Aspektebene analysiert. Da die negative Sprache möglicherweise persönlich identifizierbare Informationen sowie beleidigende oder Hassreden enthält, können solche Inhalte gemäß den Richtlinien für soziale Medien und den gesetzlichen Anforderungen zensiert werden. Das Strafgesetzbuch der Russischen Föderation verfügt über einen Rechtsrahmen, der öffentliche Forderungen nach radikalen Maßnahmen regelt, die sich auf das Volumen stark negativer Aussagen sowohl in Online- als auch in Offline-Diskussionen auswirken sollten. Alle diese Funktionen müssen im Abschnitt zu Einschränkungen explizit beschrieben werden.Diese Daten können gemäß den Regeln für soziale Medien und den gesetzlichen Anforderungen zensiert werden. Das Strafgesetzbuch der Russischen Föderation verfügt über einen Rechtsrahmen, der öffentliche Forderungen nach radikalen Maßnahmen regelt, die sich auf das Volumen stark negativer Aussagen sowohl in Online- als auch in Offline-Diskussionen auswirken sollten. Alle diese Funktionen müssen im Abschnitt zu Einschränkungen explizit beschrieben werden.Diese Daten können gemäß den Regeln für soziale Medien und den gesetzlichen Anforderungen zensiert werden. Das Strafgesetzbuch der Russischen Föderation verfügt über einen Rechtsrahmen, der öffentliche Forderungen nach radikalen Maßnahmen regelt, die sich auf das Volumen stark negativer Aussagen sowohl in Online- als auch in Offline-Diskussionen auswirken sollten. Alle diese Funktionen müssen im Abschnitt zu Einschränkungen explizit beschrieben werden.
1.1.2. Ukrainische Krise
Die Beziehungen zwischen Russland und der Ukraine wurden nach der Revolution im Jahr 2014, dem anschließenden Beitritt der Krim in die Russische Föderation und dem bewaffneten Konflikt in den Regionen Donezk und Luhansk angespannt. Da sich viele Social-Media-Plattformen zu modernen Instrumenten des sozialen Engagements entwickelt haben [53], wurde eine Reihe von Studien zur Computerlinguistik durchgeführt, deren Autoren versucht haben, die Möglichkeit zu untersuchen, den Online-Diskurs zur Analyse der geäußerten Meinungen und Merkmale von Diskursteilnehmern zu verwenden. Laut der Volkszählung von 2001 in der Ukraine betrachten 67,5% der Einwohner Ukrainisch als ihre Muttersprache und 29,6% Russisch. Daher analysierten Forscher zusätzlich zu oder anstelle von Ukrainisch normalerweise russischsprachige Texte.
Eine von Duvanova geleitete Forschergruppe untersuchte die Auswirkungen des bewaffneten Konflikts in der Ukraine auf die sozialen Online-Beziehungen zwischen allen ukrainischen Regionen [85]. Die Autoren verwendeten VKontakte als Quelle, da es das beliebteste soziale Netzwerk in der Ukraine ist. Zuerst identifizierten sie basierend auf Schlüsselwörtern eine Liste relevanter Gemeinschaften - 14.777. Dann wurden basierend auf dieser Liste 19.430.445 Veröffentlichungen und 62.193.711 Kommentare unter Verwendung der Software zur Überwachung sozialer Netzwerke gesammelt, die in den Arbeiten von Semyonov und Vejyalainen [105] sowie Semyonov vorgestellt wurden und Mitautoren [106]. Um Texte in positive und negative zu klassifizieren, verwendeten die Autoren einen regelbasierten Ansatz mit einem Wörterbuch von 8.863 positiven und 24.299 negativen Wörtern in Russisch und Ukrainisch. Es stellte sich heraus, dass die Diskussionen in der Ukraine zum Beispiel durch militärische Aktionen polarisierter geworden sind, z.In den östlichen Regionen des Landes nahm die Anzahl der negativen und positiven Aussagen zu. In anderen Teilen der Ukraine hatten Feindseligkeiten jedoch keinen spürbaren Einfluss auf die Intensität des Ausdrucks von Emotionen. Die Feindseligkeiten lösten im Land eine starke emotionale Reaktion aus, aber der soziale Zusammenhalt in der internen Kommunikation zwischen den Regionen nahm nicht unvermeidlich zu. Die Autoren gaben jedoch keine Details zur Vorverarbeitung und zum Training des Modells oder zu den Klassifizierungsmetriken an.Es gab jedoch keine unvermeidliche Zunahme des sozialen Zusammenhalts in der internen Kommunikation zwischen den Regionen. Die Autoren gaben jedoch keine Details zur Vorverarbeitung und zum Training des Modells oder zu den Klassifizierungsmetriken an.Es gab jedoch keine unvermeidliche Zunahme des sozialen Zusammenhalts in der internen Kommunikation zwischen den Regionen. Die Autoren gaben jedoch keine Details zur Vorverarbeitung und zum Training des Modells sowie zu den Klassifizierungsmetriken an.
Die Arbeit des von Volkova [86] geleiteten Teams untersuchte die Äußerungen der öffentlichen Meinung auf VKontakte während der russisch-ukrainischen Krise. Basierend auf der Liste der Schlüsselwörter haben die Autoren bei VKontakte eine Reihe von 5.970.247 Veröffentlichungen gesammelt, die im Zeitraum von September 2014 bis März 2015 erschienen sind. Zur gezielten Vorhersage von Meinungen verwendeten die Forscher das POLYARNIK-Klassifizierungssystem [107], das auf morphologischen und syntaktischen Regeln, emotionalem Vokabular und überwachten Lernmodellen basiert [108]. Um Emotionen zu klassifizieren, haben die Autoren eine Reihe unabhängiger Twitter-Diskussionen im Zusammenhang mit der Krise zusammengestellt. Unter Verwendung der in den Arbeiten [109] und [110] beschriebenen Ansätze haben die Autoren ein automatisches Textmarkup implementiert, das auf sechs grundlegenden Ekman-Emotionen basiert [111].Anschließend überprüften sie die automatische Anmerkung mit russischen und ukrainischen Muttersprachlern manuell erneut. Das Ergebnis waren 5.717 Twitter-Posts, die Wut, Vergnügen, Angst, Traurigkeit, Ekel und Überraschung zum Ausdruck brachten, sowie 3.947 nicht-emotionale Posts. Die endgültige Klassifizierung der in den Texten zum Ausdruck gebrachten Emotionen erfolgte in zwei Schritten. Zunächst wurden die Texte als emotional und nicht emotional klassifiziert. Dann wurden emotionale Texte unter Verwendung des logistischen Regressionsmodells [32] in sechs Klassen unterteilt, basierend auf Stilistik, Vokabular und binären Unigrammen. Gewichtete F.wurde in zwei Stufen durchgeführt. Zunächst wurden die Texte als emotional und nicht emotional klassifiziert. Dann wurden emotionale Texte unter Verwendung des logistischen Regressionsmodells [32] in sechs Klassen unterteilt, basierend auf Stilistik, Vokabular und binären Unigrammen. Gewichtete F.wurde in zwei Stufen durchgeführt. Zunächst wurden die Texte als emotional und nicht emotional klassifiziert. Anschließend wurden emotionale Texte mithilfe des logistischen Regressionsmodells [32] in sechs Klassen unterteilt, die auf Stilistik, Wortschatz und binären Unigrammen basierten. Gewichtete F.1-Messung des emotionalen Klassifikationsmodells erreichte 58%. Nach den erzielten Ergebnissen war der Anteil positiver Meinungen zu Euromaidan in der Ukraine höher als in Russland. Zum Vergleich: In Russland war der Anteil positiver Aussagen zu Putin und der Krim höher als in der Ukraine. Darüber hinaus widersprechen einige der Ergebnisse gängigen Medienmissverständnissen. Zum Beispiel gab es in Russland Veröffentlichungen, deren Autoren positiv für die Vereinigten Staaten und gegen Putin sprachen, während es in der Ukraine Veröffentlichungen gab, die Putin und nicht Euromaidan unterstützten. Der Hauptnachteil der Studie besteht darin, dass die Autoren POLYARNIK zur Analyse der Stimmung verwendeten, ohne die Qualität der Klassifizierung von Texten zum ausgewählten Thema zu bewerten. Darüber hinaus verwendeten die Autoren ein Modell, das auf Twitter-Nachrichten trainiert wurde, um Emotionen in Nachrichten von VKontakte zu erkennen.die unterschiedliche sprachliche Merkmale aufweisen, zumindest die durchschnittliche Länge des Textes. Außerdem stellen sich viele Fragen zur Qualität der Anmerkungen durch einen einzelnen Prüfer, da es unmöglich ist, die Metriken einer Vereinbarung zwischen Experten zu messen.
Auf der Grundlage des russisch-ukrainischen Konflikts von 2014 analysierten Rumshisky und Co-Autoren die Dynamik der Reflexion des politischen Konflikts in sozialen Netzwerken [87]. Im Gegensatz zur Studie von Volkova [86] stützten sich die Forscher bei der Erstellung des Korpus für die Analyse nicht auf verrauschte Daten über den Standort der Autoren. Stattdessen konzentrierten sie sich auf die Selbstidentifikation der mit der Krise verbundenen Benutzergruppen. Nach der Analyse der VKontakte-Daten wählten die Forscher manuell 51 Anti-Maid-Gruppen mit 1.942.918 eindeutigen Benutzern und 47 beförderte Gruppen mit 2.445.661 Benutzern aus. Dann haben wir alle Veröffentlichungen an den Wänden dieser Gruppen ausgewählt, Veröffentlichungen aus den Wänden aktiver Benutzer und derjenigen hinzugefügt, denen diese Veröffentlichungen gefallen haben. Nur diese Veröffentlichungen wurden der Sammlung hinzugefügtin dem mindestens ein Schlüsselwort aus einer vordefinierten Liste gefunden wurde. Um die Stimmung russischsprachiger Texte vorherzusagen, verwendeten die Forscher eine verbesserte Version der SentiMental-Bibliothek, bei der es sich um ein wörterbuchbasiertes Stimmungsanalysesystem handelt. Die Forschungsergebnisse bestätigten, dass die Zunahme der Konfliktintensität mit negativen Aussagen einhergeht. Die Analyse untersuchte die Beziehung zwischen dem dominanten Gefühl und dem zufälligen Walk-Kontroversenmaß. Mit zunehmender Anzahl von Streitigkeiten steigt auch die Standardabweichung der Gesamtstimmung, die von gegnerischen Gruppen ausgedrückt wird, sowie das Maß für das zufällige Wandern der Diskussion. Der Hauptnachteil der Studie besteht darin, dass die Autoren keine Details zur Vorverarbeitung und Schulung angegeben haben.Um die Stimmung russischsprachiger Texte vorherzusagen, verwendeten die Forscher eine verbesserte Version der SentiMental-Bibliothek, bei der es sich um ein wörterbuchbasiertes Stimmungsanalysesystem handelt. Die Forschungsergebnisse bestätigten, dass die Zunahme der Konfliktintensität mit negativen Aussagen einhergeht. Die Analyse untersuchte die Beziehung zwischen dem dominanten Gefühl und dem zufälligen Walk-Kontroversenmaß. Mit zunehmender Anzahl von Streitigkeiten steigt auch die Standardabweichung der Gesamtstimmung, die von gegnerischen Gruppen ausgedrückt wird, sowie das Maß für das zufällige Wandern der Diskussion. Der Hauptnachteil der Studie besteht darin, dass die Autoren keine Details zur Vorverarbeitung und Schulung angegeben haben.Um die Stimmung russischsprachiger Texte vorherzusagen, verwendeten die Forscher eine verbesserte Version der SentiMental-Bibliothek, bei der es sich um ein wörterbuchbasiertes Stimmungsanalysesystem handelt. Die Forschungsergebnisse bestätigten, dass die Zunahme der Konfliktintensität mit negativen Aussagen einhergeht. Die Analyse untersuchte die Beziehung zwischen dem dominanten Gefühl und dem zufälligen Walk-Kontroversenmaß. Mit zunehmender Anzahl von Streitigkeiten steigt auch die Standardabweichung der Gesamtstimmung, die von gegnerischen Gruppen ausgedrückt wird, sowie das Maß für den zufälligen Verlauf der Diskussion. Der Hauptnachteil der Studie besteht darin, dass die Autoren keine Details zur Vorverarbeitung und Schulung angegeben haben.
Zaeziev schlug vor, den Prozess der politischen Mobilisierung durch Analyse des Inhalts sozialer Netzwerke zu untersuchen [88]. Die ukrainische Revolution von 2013-2014 wurde als Grundlage genommen. Der Autor konzentrierte sich auf die erste Phase der Proteste vom 21. Februar 2013 bis 22. Februar 2014. Er analysierte Veröffentlichungen in den beliebtesten sozialen Netzwerken der Ukraine: VKontakte und Facebook. Zaeziev identifizierte eine Reihe relevanter Schlüsselwörter basierend auf den allgemeinen Empfehlungen von Godbowl [112] und sammelte dann mehr als 124.000 Nachrichten mit IQBuzz. Unter Verwendung der IQBuzz-Algorithmen zur Stimmungserkennung klassifizierte der Forscher die Texte in Kategorien: negativ, neutral, positiv und gemischt. Unter der Annahme, dass Unterstützer von Euromaidan eine positive Einstellung zu diesem Ereignis äußern würden, entfernten die Autoren alle nicht positiven Botschaften aus der Sammlung.Dann haben wir die Sammlung nach einer vordefinierten Liste von Schlüsselwörtern gefiltert und 4255 Beiträge hinterlassen. Die Analyse dieser Daten ergab, dass soziale Netzwerke in der ersten Nacht der Proteste hauptsächlich als Instrument zur politischen Mobilisierung und später als Instrument zur Berichterstattung in den Medien eingesetzt wurden. Der Hauptnachteil der Studie besteht darin, dass sie keine Stimmungsklassifizierungsmetriken beschreibt, so dass es schwierig ist, die Genauigkeit der Ergebnisse zu überprüfen.
Der Forscher Tokarev vom Moskauer Staatlichen Institut für Internationale Beziehungen untersuchte den Diskurs der wichtigsten ukrainischen Blogger über das Territorium und die Bevölkerung von Donbass im Zeitraum von 2009 bis 2018 [56]. Der Autor analysierte die Semantik, Häufigkeit und Emotionalität von Diskussionen im ukrainischen Facebook-Segment. Die Forschung bestand aus mehreren Phasen. Zunächst wurden Meinungsführer identifiziert und ihre Veröffentlichungen vom 1. Januar 2009 bis zum 15. Februar 2018 heruntergeladen. Anschließend identifizierten die Autoren anhand vorgegebener Schlüsselwörter aus dem Diskurs Veröffentlichungen, die Donbass gewidmet waren. In der nächsten Phase wurde ein Wörterbuch der Emotionen erstellt, das später verwendet wurde, um Diskussionen nach dem Grad ihrer Emotionalität zu differenzieren. Mit Hilfe von Freiwilligen wurde ein Wortschatz von 566 Markierungswörtern für das Territorium und die Bevölkerung gesammelt.Jedes Wort wurde auf Russisch und Ukrainisch präsentiert. Ein Team von 69 Bewertern hat das Vokabular dann in fünf Klassen unterteilt: positiv, neutral-positiv, neutral, neutral-negativ und negativ. Schließlich wurden der Ausdrucksgrad von Emotionen und die Dynamik von Diskussionen bewertet. Ein Korpus von 1.069.687 Veröffentlichungen von 376 großen Bloggern in sieben Sprachen wurde analysiert. Es stellte sich heraus, dass der Beginn der Diskussionen über das Territorium und die Bevölkerung von Donbass um die Wende von 2013 bis 2014 begann. Zuvor war die Häufigkeit der Erwähnung dieses Bereichs nahezu Null. Es wurde eine signifikante negative Einstellung gegenüber der Bevölkerung zum Ausdruck gebracht, und es gab praktisch keine negative Diskussion über das Gebiet. Ein neutraler Ton herrschte vor. Die Anzahl der positiven und negativen Diskussionen über das Gebiet war im Vergleich zu den Diskussionen über die Bevölkerung viel geringer.Dies lässt den Schluss zu, dass unter den Hauptbloggern ein hohes Maß an Unsicherheit in Bezug auf das Territorium sowie die geringe Wahrscheinlichkeit besteht, dass der Diskurs von neutral zu positiv wechselt. Die Nachteile dieser Studie sind die gleichen wie in Zaezievs Arbeit [88], es gibt keine Beschreibung der Klassifizierungsmetriken.
Während der Untersuchung der Ukraine-Krise verwendeten die Forscher daher nicht nur Informationen über die Stimmung, sondern auch über den Standort der Autoren der Veröffentlichungen, um die territoriale Bindung der Nutzer zu untersuchen. Um die relevanten Texte zu bestimmen, wurde eine Liste von Konfliktmarkierungswörtern gesammelt und Texte, die diese Markierungen enthielten, wurden durchsucht. Bei der Analyse ethnischer Gruppen oder Probleme im Zusammenhang mit Migration ist es schwierig, repräsentative Daten zu extrahieren und die damit verbundenen Einschränkungen ausführlich zu beschreiben.
1.1.3. Soziale Spannung
Die in der modernen russischen Gesellschaft beobachteten Prozesse machen es erforderlich, soziale Konflikte in einen bestimmten Rahmen zu stellen [113]. Angesichts der weit verbreiteten Nutzung sozialer Medien mit Vorteilen und Risiken für die Zivilgesellschaft [114] sollte der Analyse von Online-Inhalten gebührende Aufmerksamkeit gewidmet werden, auch um soziale Spannungen zu identifizieren. Sie können soziale Online-Spannungen mithilfe von Indizes und Metriken messen und diese Informationen dann verwenden, um Spannungsausbrüche zu verfolgen, was eine Form der vorausschauenden Governance darstellt [115].
Das von Donchenko geleitete Team analysierte die Kommentare zu VKontakte zu sozial sensiblen Themen für den Zeitraum von Januar bis Juni 2017 [89]. Die Forscher stellten eine Liste beliebter Themen im Zusammenhang mit sozialen Spannungsproblemen zusammen und sammelten relevante Benutzerpublikationen über die VKontakte-API. Dann wurden die Texte vorverarbeitet: Das Stemming von Wörtern (Stemming) wurde ausgewählt, die Interpunktion wurde entfernt und Standardabkürzungen und Slangwörter wurden durch die entsprechenden normalen Wörter ersetzt. Zur Kategorisierung nach Themen trainierten die Autoren ein Support Vector Model (SVM) [33] mit TF-IDF-Vektorisierung [116]. Soziale heiße Themen: Arbeitslosigkeit, Korruption und steigende Preise für Konsumgüter. Unter Verwendung des SVM-Modells wurde auch die Polarität der Tonalität klassifiziert. Es stellte sich heraus, dass sich Proteststimmungen normalerweise auf die Zentren dicht besiedelter Regionen konzentrieren.Einer der Hauptnachteile der Arbeit ist das Fehlen einer Bewertung der Qualität von Datenanmerkungen und das Fehlen einer Spezifikation von Stimmungsklassifizierungsmetriken. Koltsova und Nagorny fanden heraus, welche Themen als soziale Probleme eingestuft werden, indem sie die Kommentare der Leser regionaler russischer Medien analysierten [57]. Die Autoren sammelten für den Zeitraum von September 2013 bis September 2014 33.887 Nachrichten und 258.107 Kommentare von Medienseiten in Omsk (Gorod55, BK55, NGS Omsk und Omsk-Inform). Um die Themen zu bestimmen, zu denen Nachrichtentexte gehören, verwendeten die Autoren Gensim- Implementierung [117] des latenten Dirichlet-Zuordnungsalgorithmus [102] mit einer von Arun, Suresh, Madhavan und Murthy [118] entwickelten Metrik. Um die Stimmung von Kommentaren zu klassifizieren, verwendeten die Autoren SentiStrength [22] mit dem PolSentiLex-Vokabular. Koltsova und Nagorny fanden, dass solche Themen,Wie Unterhaltung, Kultur, Sport und Urlaub am häufigsten positive Emotionen hervorrufen und die meisten negativen Emotionen mit Kriminalität und Katastrophen verbunden sind. Die Forscher berechneten für jedes Thema einen Index für Wichtigkeit und Polarität. Ein grundlegendes Problem bei der Verwendung von SentiStrength in dieser Studie besteht darin, dass die Autoren die Metriken zur Klassifizierung der Daten für das ausgewählte Thema nicht beschrieben haben, sodass es schwierig ist, die Genauigkeit der Ergebnisse zu überprüfen.
Daher verwendeten die Autoren zwei Ansätze, um akute soziale Themen zu identifizieren. Im ersten Fall werden die Daten basierend auf einer Liste von Schlüsselwörtern gefiltert, und im zweiten Fall wird eine unbeaufsichtigte Clusterbildung aller Daten angewendet, gefolgt von der Identifizierung akuter sozialer Themen. Bei der Verwendung von Daten aus sozialen Medien hatten die Autoren die gleichen Schwierigkeiten, repräsentative Daten zu extrahieren. Dies ist jedoch bei der Analyse von Daten von Nachrichtenseiten nicht relevant, da sie normalerweise keine Einschränkungen für den Zugriff auf veröffentlichte Informationen haben. Da der Diskurs über sensible Themen von einer harten Sprache begleitet sein kann, kann letztere gemäß den Nutzungsvereinbarungen und Gesetzen zensiert werden.
1.1.4. Andere Themen
Eine Reihe von Studien haben sich auf Themen aus anderen Bereichen konzentriert. Die Forscherin Ruleva untersuchte die Reaktion russischsprachiger Twitter- und YouTube-Nutzer auf eine Meteorexplosion über Tscheljabinsk im Februar 2013 [58]. In den letzten 100 Jahren war es der größte Himmelskörper, der in die Erdatmosphäre eingedrungen ist. Wie erwartet löste die Veranstaltung eine emotionale Debatte in traditionellen Medien und Online-Plattformen aus. Der Forscher sammelte vom 15. bis 20. Februar 2013 495 Twitter-Beiträge mit dem Hashtag „Meteorit“ sowie einer nicht festgelegten Anzahl von YouTube-Videos. Der Schwerpunkt lag auf einer vergleichenden Analyse des Inhalts beider Websites im Zusammenhang mit den Unterschieden zwischen primären und sekundären gesprochenen Genres [119]. Die Texte gaben jedoch auch eine bestimmte Interpretation von Gefühlen und Emotionen.
Ruleva stellte fest, dass YouTube-Inhalte nützlichere Daten für die Stimmungsforschung liefern als Twitter. Der Autor stützte sich auf die Genre-Analyse und eine Mischung aus sprachlicher und semiotischer Analyse. Das heißt, sie analysierte den Text selbst und wie er präsentiert wird. Der Autor ist der Ansicht, dass YouTube- und Twitter-Nutzer häufig unterschiedlichen sozialen Gruppen angehören und daher unterschiedliche Ausdrucksmuster von Emotionen aufweisen können. Obwohl die gesamte Studie indirekt mit den emotionalen Aspekten des Textes zusammenhängt, war Ruleva eine der ersten, die die Unterschiede zwischen verschiedenen Arten russischsprachiger Informationen untersuchte. Es gibt jedoch keine detaillierte Beschreibung der Stimmungsvergleichsmethode und des Datenerfassungsverfahrens in YouTube. Um Daten auf Twitter zu finden, wurde eine grundlegende Filterung angewendet, bei der ein großer Teil der Nachrichten ignoriert wurde.dem fehlte der Hashtag "Meteorit". Darüber hinaus bietet das Twitter-Suchwerkzeug ohne Verwendung der historischen API nur einen teilweisen Zugriff auf alle öffentlich verfügbaren Nachrichten.
Kirilenko und Stepchenkova führten auf Twitter eine vergleichende Studie zum russisch- und englischsprachigen Diskurs über die Olympischen Spiele 2014 in Sotschi durch [90]. Über die Twitter-API wurden über einen Zeitraum von sechs Monaten über die Olympischen Spiele hinweg über 400.000 Nachrichten gesammelt [120] und anschließend einer Cluster- und Stimmungsanalyse für den Wettbewerb unterzogen. Die Autoren bewerteten die Ansätze von Deeply Moving [121], Pattern und SentiStrength [22] an einem handbeschrifteten Satz von 600 englischsprachigen und 3.000 russischsprachigen Twitter-Posts. Trotz der zunehmenden positiven Einstellung gegenüber den Olympischen Spielen während des Spiels war diese Verbesserung nur für die Botschaften der Russen von Bedeutung. Die Autoren haben jedoch weder Klassifizierungsmetriken für die bewerteten Modelle bereitgestellt noch den Vorverarbeitungsschritt beschrieben.
Das von Spicer geleitete Team untersuchte die Welle der Massenproteste im Zusammenhang mit den Wahlen zur Duma und zur Präsidentschaft der Russischen Föderation im Zeitraum 2011-2012 [91]. Die Forscher analysierten relevante russischsprachige Twitter-Nachrichten vom 17. März 2011 bis 12. März 2012, die über die Twitter-Streaming-API gesammelt wurden. Die Daten wurden anhand einer Liste von Schlüsselwörtern ausgewählt. Es wurden 690.297 russischsprachige Nachrichten in Bezug auf Politik gesammelt. Um Unterstützer und Gegner von Putin zu identifizieren, verwendeten die Autoren eine Kombination aus Keyword-Liste und SentiStrength [22] und klassifizierten die 1.000 besten Benutzer nach ihrer durchschnittlichen Stimmungsbewertung und Parteizugehörigkeit. Beim Vergleich der manuellen Anmerkungen von 100 Benutzern auf beiden Seiten mit der automatischen Klassifizierung stellten die Forscher fest, dass etwa 70% der Teilnehmer korrekt klassifiziert wurden.Schließlich wendeten die Autoren eine qualitative Forschungsmethode an [122] und codierten manuell die schlüsselextrahierten n-Gramm. Eine der wichtigsten Erkenntnisse ist, dass der Diskurs auf Twitter zunächst stark von der Opposition unterstützt wurde und später die Mobilisierung der Opposition erheblich abnahm und die Unterstützung für Putin zunahm. Diese Studie hat jedoch mehrere Nachteile. Erstens ist die Repräsentativität der Beispieldaten nicht klar, da die Twitter-Streaming-API nur einen teilweisen Zugriff auf alle Veröffentlichungen bietet. Zweitens wurden die Klassifizierungsmetriken nicht an der Zieltext-Sammlung gemessen, sodass es schwierig ist, die Qualität der Stimmungsklassifizierung zu überprüfen.und später nahm die Mobilisierung der Opposition erheblich ab und die Unterstützung für Putin nahm zu. Diese Studie hat jedoch mehrere Nachteile. Erstens ist die Repräsentativität der Beispieldaten nicht klar, da die Twitter-Streaming-API nur einen teilweisen Zugriff auf alle Veröffentlichungen bietet. Zweitens wurden die Klassifizierungsmetriken nicht an der Zieltext-Sammlung gemessen, sodass es schwierig ist, die Qualität der Stimmungsklassifizierung zu überprüfen.und später nahm die Mobilisierung der Opposition erheblich ab und die Unterstützung für Putin nahm zu. Diese Studie hat jedoch mehrere Nachteile. Erstens ist die Repräsentativität der Beispieldaten nicht klar, da die Twitter-Streaming-API nur einen teilweisen Zugriff auf alle Veröffentlichungen bietet. Zweitens wurden die Klassifizierungsmetriken nicht an der Zieltext-Sammlung gemessen, sodass es schwierig ist, die Qualität der Stimmungsklassifizierung zu überprüfen.
Nenko und Petrova führten eine vergleichende Analyse der Verteilung von Emotionen in St. Petersburg durch, basierend auf Nutzerkommentaren zu städtischen Objekten in Google Places und Daten aus dem offenen GIS-System Imprecity [92]. Der Datensatz enthielt 1.800 Emotionsmarker von Imprecity und 2.450 ortsbezogene Kommentare von Google Places. Zwei Gutachter markierten die Kommentare in sechs Emotionen und verarbeiteten sie mit einem naiven Bayes'schen Klassifikator [123]. Basierend auf einer Stimmungsanalyse und einem Datensatz von Imprecity erstellten die Autoren eine Heatmap mit negativen und positiven Emotionen in St. Petersburg. Der allgemeine Trend ist die Konzentration positiver und negativer Emotionen im historischen Zentrum im Süden der Stadt, am westlichen Ende der Vasilievsky-Insel und im Zentrum der Petrogradsky-Insel.Die Autoren haben jedoch die Vorverarbeitungsmethode und die Klassifizierungsmetriken nicht beschrieben.
Bei der Untersuchung der Einstellungen zu verschiedenen Ereignissen oder Orten hatten die Forscher daher die gleichen Schwierigkeiten, repräsentative Daten zu finden und Einschränkungen ausführlich zu beschreiben. Darüber hinaus war der Hauptnachteil der meisten Studien das Fehlen einer Bewertung des Stimmungsanalysemodells in Texten zu ausgewählten Themen, so dass es schwierig ist, die Qualität der Klassifizierung zu überprüfen.
1.2. Index der sozialen Stimmung
Bei der Messung von Glück und Lebenszufriedenheit, beispielsweise anhand des Subjektiven Wohlfühlindex (SWB) [124], stützen sich moderne psychologische Ansätze auf Selbstbewertungsskalen. Diese Ansätze haben Nachteile. Zum Beispiel machen es die begrenzte Anzahl von Interviews, die hohen Kosten für die Befragung von Befragten und die Abhängigkeit vom Gedächtnis der Teilnehmer schwierig, den Status der Befragten in Echtzeit darzustellen [125] - [127]. Alternativ haben Forscher versucht, verschiedene Indizes der sozialen Stimmung mithilfe der Stimmungsanalyse zu messen, da in benutzergenerierten Daten in sozialen Medien eine breite Palette von Meinungen zum Ausdruck kommt [2] [127] - [133].
In seiner Arbeit [93] berechnete Panchenko den Stimmungsindex in russischsprachigem Facebook als den durchschnittlichen Grad an Emotionen in einer Reihe von Texten. Wir haben 573 Millionen anonymisierte Veröffentlichungen und Kommentare für den Zeitraum vom 5. August 2006 bis zum 13. November 2013 analysiert, die von Digsolab LLC recherchiert wurden. Die Autoren haben den gesamten Satz russischsprachiger Texte mit dem Modul langid.py gefiltert [134]. Der Index der sozialen Stimmung wurde unter Verwendung eines wörterbuchbasierten Ansatzes berechnet [135] [136], ähnlich dem von Dodd [129]. Der Autor hat aus 1511 Begriffen ein eigenes Wörterbuch der Emotionen entwickelt, das von zwei Spezialisten in positive und negative Klassen unterteilt wurde. Um die Qualität der Klassifizierung zu beurteilen, wandte Panchenko den Vokabularansatz auf den ROMIP 2012-Datensatz an [15]. Der Autor behauptet, dass er bei einer Reihe von Filmkritiken den Wert des Makro-Durchschnitts F 1 erreicht hat-Punkt bis zu 0,383 und Genauigkeit bis zu 0,465. Um die Stimmung zu messen, schlug der Autor vier Indizes vor: den Word Sentiment Index, den Word Emotion Index, den Text Sentiment Index und den Text Emotion Index. Die ersten beiden arbeiten mit der Tonalität der Wörter und die zweiten beiden - mit der Tonalität des Textes. Nach der Analyse haben positive Inhalte Vorrang vor negativen Inhalten. Die Maximalwerte der Indizes fallen mit Feiertagen zusammen, und die Minimalwerte - mit denkwürdigen Tagen und nationalen Tragödien. Im Allgemeinen äußern Benutzer 3,8-mal mehr positive Gefühle als negative. Menschen verwenden weniger emotionale Wörter in Posts und mehr in Kommentaren. Die wichtigste Einschränkung ist diedass der Autor die Qualität der Klassifizierung in Filmkritiken überprüft und auf allgemeine Texte angewendet hat, so dass es schwierig ist, die Richtigkeit des Ergebnisses zu überprüfen. Darüber hinaus wird der interne Datenerfassungsprozess von Digsolab nicht beschrieben, weshalb Fragen zur Repräsentativität aufgeworfen werden.
Das von Shchekotin geleitete Team schlug eine neue Methode zur subjektiven Bewertung des Wohlbefindens vor, die auf VKontakte-Daten zur Benutzeraktivität basiert [68]. Unter Verwendung des von Gavrilova [137] entwickelten Modells der Lebensqualitätsindikatoren wählten die Autoren einige der Indikatoren für die Überwachung in ihrer Studie aus. Sie konzentrierten sich auf die geografische und sozioökonomische Repräsentativität und wählten 43 von 85 russischen Regionen aus. Anschließend identifizierten sie in den ausgewählten Regionen die drei größten Städte und wählten jeweils 10 VKontakte-Gemeinden aus, um die Bewohner dieser Städte - städtische Gemeinden - zu vereinen. Unter Verwendung einer Sammlung von Daten aus sozialen Netzwerken und einer Analyseplattform des Universitätskonsortiums von Big-Data-Forschern, das an der Tomsk State University entwickelt wurde,Die Autoren extrahierten Informationen, die von diesen Communities für den Zeitraum vom 1. Januar bis 31. Dezember 2018 veröffentlicht wurden. Danach entfernten sie irrelevante Daten - Werbepublikationen und Texte, die nicht mit dem Forschungsthema zusammenhängen (offene Stellen, Sport, kulturelle Veranstaltungen). Die Filterung irrelevanter Daten erfolgte in zwei Schritten: manuelle Analyse von 60.000 Nachrichten und automatische Reinigung, bei der der Algorithmus auf manuell bereinigte Nachrichten trainiert wurde. Danach blieben rund 1.700.000 Publikationen übrig. Während der Bereinigung wurden Veröffentlichungen zu 19 Themen und drei Stimmungsklassen (positiv, negativ und neutral) manuell kommentiert. Im Verlauf der Vorverarbeitung wurden seltene Wörter und Symbole, die nicht zum russischen und lateinischen Alphabet gehören, entfernt und alle anderen Wörter auf ihre Basis reduziert (Stemming). Dann wurden mehrere Algorithmen für maschinelles Lernen trainiert.Die beste Qualität der Klassifizierung zeigte der Gradientenverstärkungsalgorithmus von LightGBM [138] - bis zu 68% für die Kategorieklassifizierung und 79% für die Stimmungsklassifizierung. Um den subjektiven Wohlfühlindex [124] [139] für jede Region zu berechnen, schlugen die Autoren eine Methode vor, die auf Indikatoren für Online-Aktivitäten basiert. Die Ergebnisse der Studie zeigten, dass in den ausgewählten Regionen die Themen der regionalen Infrastrukturentwicklung am aktivsten positiv diskutiert werden. Die am wenigsten positive Aktivität ist mit einer Einschätzung des allgemeinen emotionalen Zustands und der Freiheit der Medien verbunden. Am aktivsten negativ diskutiert wird das Thema Sicherheit, dh die Bewertung der Maßnahmen der Sicherheitskräfte und anderer staatlicher Organisationen zur Gewährleistung der Sicherheit in der Region.Die niedrigsten negativen Indikatoren für Online-Aktivitäten sind auch typisch für den allgemeinen emotionalen Zustand und die Freiheit der Medien. Darüber hinaus haben die Autoren eine umfassende Liste von Einschränkungen zusammengestellt, einschließlich der Repräsentativität der Datenstichproben, der Zielgruppe der analysierten sozialen Netzwerke und der möglichen Auswirkungen von Bots.
Bei der Erstellung des Trainingsdatensatzes haben die Autoren die Verteilung der Stimmungsklassen jedoch nicht beschrieben. Wenn die Datensätze nicht ausgeglichen wurden, wird empfohlen, die Qualität der Klassifizierung mithilfe komplexerer Metriken wie Präzision, Rückruf und F-Messung zu messen.
1.3. Benutzerverhalten
Social Media-Inhalte können eine wertvolle Informationsquelle sein, nicht nur über Einstellungen zu verschiedenen Themen, sondern auch über die Verhaltensmuster von Benutzern bei der Interaktion mit diesen Inhalten.
Svetlov und Platonov haben den Einfluss der Tonalität auf das Feedback des Publikums identifiziert [69]. Die Datenquelle waren 46.293 Veröffentlichungen und 2.197.063 Kommentare aus den beliebtesten Berichten russischer Politiker auf VKontakte für den Zeitraum von Januar 2017 bis April 2019. Die Forscher trainierten BiGRU [140] zu den Datensätzen RuTweetCorp [141] und RuSentiment [142] jeweils makrogemitteltes F 1 = 0,91 und F 1= 0,77. Basierend auf den Ergebnissen der Stimmungsanalyse identifizierten die Autoren mehrere Antwortmuster. Beiträge wurden als positiv eingestuft, wenn sie mehr Ansichten und Likes von Benutzern hatten. Posts mit einer großen Anzahl von Reposts und Kommentaren wurden als negativ eingestuft. Die Verwendung von Trainingsdaten aus einem Bereich und die Anwendung von darauf trainierten Modellen in einem anderen Bereich werfen jedoch viele Fragen auf. RuTweetCorp ist eine Sammlung von Kurzbeiträgen von Twitter, und RuSentiment ist eine Sammlung allgemeiner Themen von VKontakte, wobei die diskutierte Studie sich auf Politik konzentriert. Ein guter Ausweg in dieser Situation wäre, eine kleine Menge von Texten zum Zielthema manuell zu kommentieren und das trainierte Modell darauf zu testen.
2. Feedback zu Produkten und Dienstleistungen
Im Internet-Zeitalter sind Produkt- und Service-Bewertungen zu einem leistungsstarken Instrument geworden, um soziale Validierung auszudrücken, das Menschen dazu ermutigt, in verschiedenen Online-Shops einzukaufen [143]. Testimonials können nicht nur für Käufer und Verkäufer, sondern auch für Forscher eine wertvolle Informationsquelle sein. In diesem Kapitel werden Literaturquellen nach den analysierten Themen unterteilt: Merkmale von Käufern, Merkmale von Produkten und Dienstleistungen, Merkmale von Händlern.
2.1. Merkmale der Gutachter
Eine Forschungsgruppe der Universität St. Petersburg analysierte die Themen und den Ton der Überprüfungen von 989 Unternehmen, die in 12 wissensintensiven russischen Industrien tätig sind [70]. Die Forscher nahmen Otrude, eines der größten russischen Portale mit Arbeitgeberbewertungen, als Hauptdatenquelle. Nachdem wir unnötige Daten gefiltert und entfernt hatten, erhielten wir 6145 Bewertungen. Die Vorverarbeitung erfolgte in mehreren Schritten: Lemmatisierung mit MyStem, Entfernen von Satzzeichen und Stoppwörtern. Die Autoren klassifizierten die Texte automatisch in zwei Kategorien, basierend auf der Bewertung der Bewertungen: Diejenigen, die mindestens drei Sterne erhielten, wurden als positiv eingestuft, der Rest als negativ. Anschließend analysierten die Forscher die Stimmung mithilfe der latenten Dirichlet-Platzierung [102] - oder Themenmodellierung - und eines nicht spezifizierten Klassifizierungsmodells.Das von Sokolov geleitete Team stellte fest, dass sechs Hauptfaktoren die Arbeitszufriedenheit beeinflussen: Reihenfolge und Zeitplan der Arbeit, Arbeitsbedingungen, Art der Arbeit, Gehalt, Karriereentwicklung, psychologisches Klima, zwischenmenschliche Beziehungen zu Kollegen. Die letzten beiden Faktoren - mentale Umgebung und zwischenmenschliche Beziehungen - werden am häufigsten von Menschen online diskutiert, wenn sie über Arbeitszufriedenheit sprechen. Daher schlugen die Autoren vor, dass eine Person, wenn sie sich zum Kündigen entschließt, eher wirtschaftliche Faktoren (z. B. die Aussichten auf berufliche Entwicklung und Gehaltserhöhungen) und nicht sozio-emotionale Faktoren (z. B. schlechte Arbeit, schlechte Beziehungen zu Kollegen) in Kauf nimmt. Das Hauptproblem der Forschung ist die Richtigkeit der Verwendung der Stimmungsanalyse. Alle Bewertungen auf der Otrude-Website enthalten die Einschätzung des Autors.Aus formaler Sicht ist daher keine Stimmungsklassifizierung erforderlich, um diese Überprüfungen zu bewerten. Ein weiterer Nachteil ist, dass die Autoren ihre Herangehensweise an die Analyse und die Ergebnisse der Stimmungsklassifizierung im Testdatensatz nicht beschrieben haben.
2.2.
Das von Seliverstov geleitete Team bewertete anhand von Daten aus dem Autostrada-Portal die Einstellung zum Zustand der Straßen im nordwestlichen Bundesdistrikt der Russischen Föderation [71]. Für das Training verwendeten die Autoren RuTweetCorp [141], den größten automatisch kommentierten Textsatz mit wenig manueller Filterung, der auf russischsprachigem Twitter gesammelt wurde. Zur Klassifizierung wurden ein reguliertes lineares stochastisches Gradientenabstiegsmodell und ein Bag of Words-Modell mit TF-IDF-Vektorisierung verwendet. Nach dem Training zeigte das Modell eine binäre Klassifizierungsgenauigkeit von 72%. Nach Analyse der Bewertungen für den Zeitraum vom 1. März 2009 bis zum 1. November 2018 stellten die Autoren fest, dass die Länge aller positiv bewerteten Straßen 9874 km (75% der Gesamtlänge) und die Länge der negativ bewerteten Straßen 3385 km (25%) betrug.Diese Studie hat jedoch mehrere Nachteile. Erstens beschreiben die Autoren nicht den Vorverarbeitungsprozess, der beim Lernen auf RuTweetCorp von entscheidender Bedeutung ist. Tatsache ist, dass dieses Set ursprünglich dazu gedacht war, ein Lexikon von Emotionen zu erstellen und nicht für eine direkte Klassifizierung der Stimmung. Das Set wurde automatisch gemäß einer bestimmten Strategie zusammengestellt [144], dh jeder Text ist abhängig von den darin enthaltenen Emoticons einer bestimmten Klasse von Emotionen zugeordnet. So kann auch ein einfacher regelbasierter Ansatz hervorragende Ergebnisse liefern. Wenn das Modell beispielsweise den Text aufgrund des Vorhandenseins eines Zeichens als positiv klassifiziert (oder aufgrund des Fehlens dieses Zeichens als negativ), erhalten wir in der binären Klassifizierung F.Das ist wichtig, wenn Sie auf RuTweetCorp lernen. Tatsache ist, dass dieses Set ursprünglich dazu gedacht war, ein Lexikon von Emotionen zu erstellen und nicht für eine direkte Klassifizierung der Stimmung. Das Set wurde automatisch gemäß einer bestimmten Strategie zusammengestellt [144], dh jeder Text ist abhängig von den darin enthaltenen Emoticons einer bestimmten Klasse von Emotionen zugeordnet. So kann auch ein einfacher regelbasierter Ansatz hervorragende Ergebnisse liefern. Wenn das Modell beispielsweise den Text aufgrund des Vorhandenseins eines Zeichens als positiv klassifiziert (oder aufgrund des Fehlens dieses Zeichens als negativ), erhalten wir in der binären Klassifizierung F.Das ist wichtig, wenn Sie auf RuTweetCorp lernen. Tatsache ist, dass dieses Set ursprünglich dazu gedacht war, ein Lexikon von Emotionen zu erstellen und nicht für eine direkte Klassifizierung der Stimmung. Das Set wurde automatisch gemäß einer bestimmten Strategie zusammengestellt [144], dh jeder Text ist abhängig von den darin enthaltenen Emoticons einer bestimmten Klasse von Emotionen zugeordnet. So kann auch ein einfacher regelbasierter Ansatz hervorragende Ergebnisse liefern. Wenn das Modell beispielsweise den Text aufgrund des Vorhandenseins eines Zeichens als positiv klassifiziert (oder aufgrund des Fehlens dieses Zeichens als negativ), erhalten wir in der binären Klassifizierung F.Das heißt, jeder Text ist abhängig von den darin enthaltenen Emoticons einer bestimmten Klasse von Emotionen zugeordnet. So kann auch ein einfacher regelbasierter Ansatz hervorragende Ergebnisse liefern. Wenn das Modell beispielsweise den Text aufgrund des Vorhandenseins eines Zeichens als positiv klassifiziert (oder aufgrund des Fehlens dieses Zeichens als negativ), erhalten wir in der binären Klassifizierung F.Das heißt, jeder Text ist abhängig von den darin enthaltenen Emoticons einer bestimmten Klasse von Emotionen zugeordnet. So kann auch ein einfacher regelbasierter Ansatz hervorragende Ergebnisse liefern. Wenn das Modell beispielsweise den Text aufgrund des Vorhandenseins eines Zeichens als positiv klassifiziert (oder aufgrund des Fehlens dieses Zeichens als negativ), erhalten wir in der binären Klassifizierung F.1 = 97,39%. Um die Probleme der automatischen Stimmungsanalyse zu lösen, empfehlen die Autoren des Datensatzes, Emoticons während der Vorverarbeitung zu löschen. Gemäß [145] wird in diesem Fall unter Verwendung der Unterstützungsvektormaschine [33] die makro-durchschnittliche Bewertung F 1= 75,95%. Ohne Kenntnis des Vorverarbeitungsprozesses ist es daher schwierig, die Richtigkeit der Studie zu beurteilen. Zweitens gibt es viele Fragen zur Effektivität der Verwendung von Daten aus einem Bereich zum Lernen in einem anderen Bereich. In diesem Fall wäre es möglich, einen kleinen Datensatz zum gewünschten Thema manuell zu kommentieren (Benutzeransichten vom Transportportal) und das trainierte Modell darauf zu testen. Drittens besteht RuTweetCorp aus drei Klassen, aber die Autoren haben die neutrale Klasse in ihrer Studie nicht berücksichtigt. Positive und negative Nachrichten wurden auf der offiziellen Website von RuTweetCorp und neutrale Nachrichten auf einer separaten Website veröffentlicht. Ich denke, aus diesem Grund haben einige Studien [146] - [150] nur positive und negative Nachrichten für die binäre Klassifizierung verwendet. Es ist anzunehmenDiese Klassenneutralität kann die Gesamtverteilung der negativen und positiven Straßenbewertungen verändern. Schließlich haben die meisten Bewertungen von Freeway urheberrechtliche Bewertungen, sodass aus formaler Sicht keine Stimmungsklassifizierung erforderlich ist, um diese Bewertungen zu bewerten. In diesem Fall wäre es interessant, die Bewertungen anhand von Bewertungen aus Bewertungen und Stimmungsklassifizierungsetiketten zu vergleichen.
2.3
Lee und Chen von der University of Arizona entwickelten ein Framework für maschinelles Lernen, um die Qualität der verkauften Produkte anhand des Kundenfeedbacks zu bestimmen [72]. Dieses Framework besteht aus drei Hauptmodulen: Schneeball-Sampling mit Schlüsselwörtern und relevanten Benutzern, Themenklassifizierung basierend auf maximaler Entropie und Stimmungsanalyse mit Deep Learning. Eine der Besonderheiten des letzteren Moduls besteht darin, dass es zuerst russischen Text mit Google Translate ins Englische übersetzt und erst dann die Stimmung mithilfe eines rekursiven neuronalen Tensornetzwerks mit Wörtern klassifiziert, die als Bank von Syntaxbäumen dargestellt werden [121]. Der vorgeschlagene Rahmen wurde in einem russischsprachigen Forum zum Thema Kreditkartenbetrug getestet.Infolgedessen wurden die Hauptverkäufer von Malware und die Diebe von Bankkartendaten identifiziert. Durch detailliertere Analysen stellten die Autoren fest, dass Kartenhändler tendenziell niedrigere Bewertungen haben als Softwarehändler. Die Autoren glauben, dass der Grund dafür ist, dass die Qualität der Software leichter zu bestimmen ist als die Qualität der gestohlenen Daten. Die Autoren erwähnten, dass der Stimmungsklassifikator aus Online-Umfragen geschult wurde, was für ihr Thema von Interesse angemessen ist, sie beschrieben jedoch nicht die Details der Verwendung des Datensatzes und die Klassifizierungsqualitätsmetriken. Die Übersetzung in eine andere Sprache kann die Bedeutung oder den Ton des Textes erheblich verändern. Daher ist es fast unmöglich, die Qualität der Analyse zu bewerten, ohne auf russischsprachige Texte zu testen.Diese Kartenhändler haben normalerweise eine niedrigere Bewertung als Softwarehändler. Die Autoren glauben, dass der Grund dafür ist, dass die Qualität der Software leichter zu bestimmen ist als die Qualität der gestohlenen Daten. Die Autoren erwähnten, dass der Stimmungsklassifikator aus Online-Umfragen geschult wurde, was für ihr Thema von Interesse angemessen ist, sie beschrieben jedoch nicht die Details der Verwendung des Datensatzes und die Klassifizierungsqualitätsmetriken. Die Übersetzung in eine andere Sprache kann die Bedeutung oder Tonalität des Textes erheblich verändern. Ohne Tests an russischsprachigen Texten ist es daher fast unmöglich, die Qualität der Analyse zu beurteilen.Diese Kartenhändler haben normalerweise eine niedrigere Bewertung als Softwarehändler. Die Autoren glauben, dass der Grund dafür ist, dass die Qualität der Software leichter zu bestimmen ist als die Qualität der gestohlenen Daten. Die Autoren erwähnten, dass der Stimmungsklassifikator aus Online-Umfragen geschult wurde, was für ihr Thema von Interesse angemessen ist, sie beschrieben jedoch nicht die Details der Verwendung des Datensatzes und die Klassifizierungsqualitätsmetriken. Die Übersetzung in eine andere Sprache kann die Bedeutung oder den Ton des Textes erheblich verändern. Daher ist es fast unmöglich, die Qualität der Analyse zu beurteilen, ohne die russischsprachigen Texte zu testen.Sie lieferten jedoch keine Details zur Verwendung des Datensatzes und zu Klassifizierungsqualitätsmetriken. Die Übersetzung in eine andere Sprache kann die Bedeutung oder den Ton des Textes erheblich verändern. Daher ist es fast unmöglich, die Qualität der Analyse zu beurteilen, ohne auf russischsprachige Texte zu testen.Sie lieferten jedoch keine Details zur Verwendung des Datensatzes und zu Klassifizierungsqualitätsmetriken. Die Übersetzung in eine andere Sprache kann die Bedeutung oder den Ton des Textes erheblich verändern. Daher ist es fast unmöglich, die Qualität der Analyse zu beurteilen, ohne die russischsprachigen Texte zu testen.
3.
Benutzergenerierte Bewertungen und Inhalte in sozialen Medien sind normalerweise subjektiv, da die Autoren ihre Meinung frei äußern können. Bei der Nachrichtenanalyse ist die Situation jedoch anders. Nachrichtenagenturen versuchen, Urteilsvermögen und völlige Voreingenommenheit zu vermeiden und Zweifel und Unklarheiten loszuwerden. Ihre Philosophie basiert auf Objektivität oder zumindest allgemein akzeptabler Neutralität [73]. Daher verwenden Journalisten häufig kein negatives oder positives Vokabular, sondern greifen auf andere Arten der Meinungsäußerung zurück [74]. Zum Beispiel können Journalisten einige Fakten hervorheben und andere weglassen, Aussagen in die komplexe Struktur des Diskurses einfügen und ein Zitat angeben, das zu ihrem Standpunkt passt. Das weit verbreitete Interesse der Menschen an Nachrichten wurde vor Jahrhunderten bemerkt [151] [152].Nachrichten werden als Datenquelle für die Stimmungsanalyse in verschiedenen Bereichen verwendet. Zum Beispiel, um die Stimmung der Nachrichten selbst zu bewerten [153], [154], um die Aktienkurse [155], [156], die Wahlergebnisse [157], [158], die Preise für Waren in Online-Shops [159] und das zukünftige Kundenverhalten vorherzusagen [154]. In Bezug auf russischsprachige Nachrichten habe ich zwei Forschungskategorien identifiziert: Bewertung der Nachrichtenstimmung sowie Wirtschafts- und Geschäftsprognosen.Bewertung der Nachrichtenstimmung sowie Wirtschafts- und Geschäftsprognosen.Bewertung der Nachrichtenstimmung sowie Wirtschafts- und Geschäftsprognosen.
3.1. Nachrichteninhalt
Belyakov widmete mehrere Artikel [94] [95] der Analyse der Stimmung von Nachrichtenberichten auf der Website des russischen Außenministeriums. Der Autor verwendete Artikel aus dem Abschnitt "Nachrichten", die vom 1. bis 28. Februar 2015 veröffentlicht wurden. Texteinheiten wurden den folgenden Kategorien zugeordnet:
- Ukrainische Frage;
- Zusammenarbeit zwischen Russland und China;
- Beziehungen zwischen Russland und der Ukraine;
- Der Konflikt in Syrien;
- Zusammenarbeit mit Turkmenistan;
- Beziehungen zwischen Russland und Griechenland;
- Sanktionen gegen Russland;
- Diplomatie heute.
Der Autor hat einen grundlegenden regelbasierten Klassifikator erstellt, der die Polarität emotionaler Wörter im Text zusammenfasst und die endgültige Binärklasse vorhersagt. Zusätzlich wurde ein Wörterbuch aus 300 positiven und 300 negativen Wortstämmen zusammengestellt. Nach den Ergebnissen der Analyse hatten die Kategorien „Zusammenarbeit zwischen Russland und China“, „Zusammenarbeit mit Turkmenistan“, „Beziehungen zwischen Russland und Griechenland“ und „Diplomatie heute“ eine positive Farbe. Die Kategorien „Ukrainische Frage“, „Beziehungen zwischen Russland und der Ukraine“ und „Sanktionen gegen Russland“ hatten eine negative Farbe. Es ist wichtig, dass die Studie nur den Inhalt von Artikeln untersucht, die von Journalisten verfasst wurden, dh dies ist Ausdruck der offiziellen Position des Außenministeriums zu bestimmten Themen. In Zukunft können Sie Leserreaktionen und Kommentare zu auf der Website veröffentlichten Nachrichtenartikeln hinzufügen. In Bezug auf die StimmungsanalyseDer Hauptnachteil von Belyakovs Forschung ist das Fehlen einer Modellbewertung. Ohne Kenntnis der Qualitätsmetriken für Testdaten können wir die Leistung des Modells und damit die Qualität der Analyseergebnisse nicht bewerten.
Eine Forschungsgruppe der Russischen Akademie der Wissenschaften untersuchte die Einstellungen zu in den Medien erwähnten Technologien und Innovationen [96]. Mit Hilfe von Exactus Expert [160] wählten die Autoren aus 16 Quellen mehr als 240.000 Artikel zu Innovation und Technologie aus, die von 2005 bis 2015 veröffentlicht wurden. Anschließend kategorisierten sie Artikel anhand manuell ausgewählter Schlüsselwörter nach 11 Technologietrends aus der Liste der kritischen Technologien der Russischen Föderation. Als nächstes wählten die Autoren 120 Artikel aus und kommentierten jedes im Artikel erwähnte Stimmungsobjekt manuell als positiv oder negativ. Basierend auf einem Trainingssatz von 346 kommentierten Paaren erstellten die Forscher ein Vokabular von Emotionen und entwickelten einen regelbasierten Klassifizierungsalgorithmus. Es wurde festgestellt, dass die Medien im Allgemeinen dazu neigen, neutral über Technologie zu schreiben, was möglicherweise auf die Konsistenz des Stils von Nachrichtenberichten zurückzuführen ist.Der relativ geringe Anteil negativer Verweise auf IT und Biotechnologie und ihre insgesamt positive Berichterstattung in den Artikeln lassen darauf schließen, dass die Gesellschaft sich keine Sorgen über die möglichen negativen Folgen dieser Technologien macht. Gleichzeitig ist der Anteil negativer Bewertungen zu militärischen Technologien höher als in anderen Bereichen. Die Autoren beschreiben jedoch nicht die Klassifizierungsmetriken im entwickelten Algorithmus. Darüber hinaus wurden diese Artikel, wie bereits erwähnt, von Journalisten verfasst, die nicht nur die Öffentlichkeit, sondern auch den offiziellen Standpunkt zum Ausdruck bringen konnten. Um die Einstellung der Öffentlichkeit zu verschiedenen Themen beurteilen zu können, müssen die Reaktionen der Menschen auf Nachrichtenartikel weiter untersucht werden.Der Anteil negativer Bewertungen zu militärischen Technologien ist höher als in anderen Bereichen. Die Autoren beschreiben jedoch nicht die Klassifizierungsmetriken im entwickelten Algorithmus. Darüber hinaus wurden diese Artikel, wie bereits erwähnt, von Journalisten verfasst, die nicht nur die Öffentlichkeit, sondern auch den offiziellen Standpunkt zum Ausdruck bringen konnten. Um die Einstellung der Öffentlichkeit zu verschiedenen Themen beurteilen zu können, müssen die Reaktionen der Menschen auf Nachrichtenartikel weiter untersucht werden.Der Anteil negativer Bewertungen zu militärischen Technologien ist höher als in anderen Bereichen. Die Autoren beschreiben jedoch nicht die Klassifizierungsmetriken im entwickelten Algorithmus. Darüber hinaus wurden diese Artikel, wie bereits erwähnt, von Journalisten verfasst, die nicht nur die Öffentlichkeit, sondern auch den offiziellen Standpunkt zum Ausdruck bringen konnten. Um die Einstellung der Öffentlichkeit zu verschiedenen Themen beurteilen zu können, müssen die Reaktionen der Menschen auf Nachrichtenartikel weiter untersucht werden.
Kazun und Kazun [75] analysierten die russische Medienberichterstattung über Trumps Aktivitäten während und nach den Wahlen. Die Autoren verwendeten die Integrum-Datenbank für die Netzwerkanalyse und die Medialogy-Datenbank für die Stimmungsanalyse. Für die Studie wurden drei Zeitintervalle festgelegt: einen Monat vor den Wahlen, einen Monat danach und sieben Monate danach. Unter Verwendung des Medialogy-Ansatzes wurden die Texte in drei Klassen unterteilt: positiv, negativ und neutral. Es stellte sich heraus, dass die Medienberichterstattung über Trumps Aktivitäten vor den Wahlen eher negativ als positiv war. In einigen Monaten war die Berichterstattung über die Clinton-Kampagne jedoch noch positiver als die Berichterstattung über Trump, obwohl in den vier Monaten vor der Wahl Artikel im Zusammenhang mit Clinton weitgehend kritisch waren. Einer der Nachteile der Studie istdass die Autoren die Qualität der Klassifizierung der Daten zum interessierenden Thema nicht beschrieben haben, so dass es schwierig ist, die Richtigkeit der Ergebnisse zu überprüfen.
Ähnliche Studien widmeten sich der Analyse von Nachrichten in Bezug auf Politik und Regierung. Im Gegensatz zu den Inhalten in sozialen Medien gab es keine Schwierigkeiten beim Zugriff auf alte Daten, da die Medien dies normalerweise nicht verhindern. Einige Autoren von Nachrichtenforschungen haben jedoch versucht, die öffentliche Meinung zu bestimmten Themen zu definieren, die meiner Meinung nach eine weitere Ausarbeitung rechtfertigen. Die Medien können natürlich als Spiegelbild der öffentlichen Meinung betrachtet werden. In einigen Fällen können jedoch die Richtlinien der Verlage die Zustellung beeinflussen, sodass Nachrichten nicht immer die öffentliche Meinung widerspiegeln.
3.2. Wirtschafts- und Geschäftsprognosen
Jakowlewa schlug vor, einen Hochfrequenzindikator für die Wirtschaftstätigkeit in Russland auf der Grundlage von Nachrichtenartikeln in Kombination mit einer Analyse der Stimmung der Texte zu berechnen [76]. Während der Studie wurden zwei Komponenten erstellt: Die erste soll die Anzahl der Themen widerspiegeln und die zweite soll den Ton der Nachrichten identifizieren. Die Vorverarbeitung bestand aus mehreren Schritten: Stemming mit MyStem, Entfernen von Satzzeichen, Stoppwörtern und unnötigen Leerzeichen. Als Stimmungsklassifizierungsmodell nahm Jakowlewa einen Unterstützungsvektoralgorithmus [33] und trainierte ihn mit manuell kommentierten Daten, die 3438 positive und negative Nachrichtenartikel enthielten. Die Genauigkeit des Testsatzes betrug 64%. Der Autor erwähnte, dass, wenn das Modell die Tonalität des Textes mit einer Wahrscheinlichkeit von weniger als 60% bestimmte, die Tonalität als neutral angesehen und der Text von der Analyse ausgeschlossen wurde. Alle Themen,mit der ersten Komponente erhalten wurden mit den Stimmungsinformationen aus dem zweiten Modell kombiniert. Basierend auf diesen kombinierten Daten wurde ein Regressionsmodell entwickelt, um die Einkaufsmanagerindizes (PMI) vorherzusagen. Die Testdaten betrafen den Zeitraum von Februar 2017 bis August 2018. Das Modell zeigte relativ gute Prognosefähigkeiten und näherte sich dem tatsächlichen Index für den neuen Zeitraum genau an. Die Forschungsergebnisse zeigen, dass das Modell die Wirtschaftsleistung genau überwachen kann, um schnell auf die aktuelle finanzielle Situation zu reagieren und Entscheidungen schnell zu treffen. Diese Studie hat jedoch mehrere Nachteile. Erstens ist nicht klar, welche Wahrscheinlichkeiten verwendet wurden,weil die grundlegende Implementierung der Support Vector Machine keine Wahrscheinlichkeitsschätzungen direkt liefert. Darüber hinaus wurde die Methode zur Auswahl von Schwellenwerten nicht beschrieben. Zweitens wurden die Trainingsdaten von Yakovleva nur von einem Spezialisten kommentiert, was nicht der allgemein anerkannten Praxis entspricht [142] [161] [162]. Schließlich veröffentlichte der Autor eine grafische Darstellung des vorhergesagten Vergleichs und der tatsächlichen PMI-Werte, erwähnte jedoch keine Metriken für die Regressionsqualität.Es wurden jedoch keine Regressionsqualitätsmetriken erwähnt.Es wurden jedoch keine Regressionsqualitätsmetriken erwähnt.
4. Bücher
In den letzten 60 Jahren hat die Analyse der wissenschaftlichen Literatur einen langen Weg zurückgelegt, von der manuellen Zitierzählung und Worthäufigkeitsanalyse bis hin zu modernen Methoden der automatischen Tieftextanalyse [163]. Eines der aktuellen Themen in diesem Bereich ist die Analyse der Stimmung von Unterrichtsmaterialien.
4.1. Inhalt von Büchern
Solovievs Forschungsgruppe untersuchte die Tonalität von Lehrbüchern über Sozialkunde und Geschichte, die in russischen Grund- und Sekundarschulen verwendet werden [77]. Für diese Studie wurde der akademische Korpus der russischen Sprache auf der Grundlage von 14 russischsprachigen Lehrbüchern zusammengestellt, die von Bogolyubov und Nikitin herausgegeben wurden. Die Vorverarbeitung umfasste Satz-Tokenisierung, Wort-Tokenisierung und Teil-der-Sprache-Markup mit TreeTagger [164]. Unter Verwendung des russischsprachigen Wörterbuchs RuSentiLex [25] berechneten die Autoren die Häufigkeit emotionaler Wörter in jedem Dokument und maßen ihre spezifische Anzahl pro 1000 Wörter im Dokument. Nach der Analyse des Korpus stellten die Autoren fest, dass der Diskurs in Geschichtsbüchern für die High School sowie in sozialwissenschaftlichen Lehrbüchern für die Mittelschule, geschrieben von Nikitin, hauptsächlich durch einen negativen Ton dargestellt wird:Es werden negativ polarisierte Wörter verwendet und negative Beispiele vorgestellt. Und die von Bogolyubov geschriebenen Lehrbücher haben einen allgemein positiven Ton. Eine wesentliche Ursache für Unzuverlässigkeit ist jedoch die Genauigkeit und Relevanz der aus dem Korpus extrahierten emotionalen Wörter, da RuSentiLex ursprünglich für andere Themen erstellt wurde. Darüber hinaus bietet RuSentiLex eine einzige kontextunabhängige Darstellung der emotionalen Polarität, unabhängig davon, wo das Wort im Satz vorkommt und welche Bedeutungen es hat. Daher können Sie mit diesem Ansatz die unterschiedlichen Bedeutungen von Wörtern basierend auf dem Kontext des Satzes nicht verstehen.Eine bedeutende Quelle für Unzuverlässigkeit ist die Genauigkeit und Relevanz der aus dem Korpus extrahierten emotionalen Wörter, da RuSentiLex ursprünglich für andere Themen erstellt wurde. Darüber hinaus bietet RuSentiLex eine einzige kontextunabhängige Darstellung der emotionalen Polarität, unabhängig davon, wo das Wort im Satz vorkommt und welche Bedeutungen es hat. Daher können Sie mit diesem Ansatz die unterschiedlichen Bedeutungen von Wörtern basierend auf dem Kontext des Satzes nicht verstehen.Eine bedeutende Quelle für Unzuverlässigkeit ist die Genauigkeit und Relevanz der aus dem Korpus extrahierten emotionalen Wörter, da RuSentiLex ursprünglich für andere Themen erstellt wurde. Darüber hinaus bietet RuSentiLex eine einzige kontextunabhängige Darstellung der emotionalen Polarität, unabhängig davon, wo das Wort im Satz vorkommt und welche Bedeutungen es hat. Daher können Sie mit diesem Ansatz die unterschiedlichen Bedeutungen von Wörtern basierend auf dem Kontext des Satzes nicht verstehen.Daher können Sie mit diesem Ansatz die unterschiedlichen Bedeutungen von Wörtern basierend auf dem Kontext des Satzes nicht verstehen.Daher können Sie mit diesem Ansatz die unterschiedlichen Bedeutungen von Wörtern basierend auf dem Kontext des Satzes nicht verstehen.
4.2. Bildungsprozess
Kolmogorova führte ein Experiment zum Russischunterricht für chinesische Studenten durch [78]. Sie maß den Zusammenhang zwischen der Stimmung von Bildungstexten, der subjektiven Einschätzung der Attraktivität und Effektivität des Schulungskurses durch ausländische Studierende sowie dem tatsächlichen Erfolg des Unterrichts in solchen Texten. Zur Analyse der Stimmung verwendete der Autor einen auf maschinellem Lernen basierenden Emotionsklassifikator, der am Labor für Angewandte Linguistik und Kognitionsforschung der Sibirischen Bundesuniversität entwickelt wurde. Das Stimmungsanalysemodell klassifizierte Texte in 9 Klassen mit dem Makro-Durchschnitt F 1-Punkt 50%. Acht Noten entsprechen den Grundemotionen von L¨ovheim [165], die letzte sind emotional neutrale Texte. Für das Trainingsset wurden die Texte in der offenen Gruppe "Belauscht" VKontakte ausgewählt. 231 russische Muttersprachler markierten die Texte und bewerteten subjektiv den Ausdrucksgrad einer Emotion, während jedem Text nur eine Emotion zugewiesen wurde. Alle Texte wurden von mindestens drei Gutachtern bewertet. Wenn zwei oder drei Prüfer dem Text dieselbe Klasse zugewiesen haben, wurde diese Emotion dem Text zugewiesen. Andernfalls wurde der Text aus dem Trainingssatz für diese Klasse entfernt. Kolmogorova verwendete Texte, für die die Hauptemotionen Vergnügen / Freude und Traurigkeit / Melancholie waren. Das Experiment wurde unter Beteiligung von 30 Studenten aus China durchgeführt, die in drei gleiche Gruppen aufgeteilt wurden.Jede Gruppe studierte und untersuchte das Thema "Interpunktion". Eine Gruppe lernte aus freudigen Texten, die zweite aus traurigen und die dritte aus neutralen. Nach Abschluss des experimentellen Studiums und der Prüfungen füllten die Studierenden einen Fragebogen aus, in dem sie den Grad des allgemeinen Interesses an dem Kurs und seine Wirksamkeit sowie den Grad ihrer Zufriedenheit mit dem Lernprozess feststellten. Nach der Analyse der Fragebögen und Prüfungsergebnisse stellte Kolmogorova fest, dass die Tonalität des Bildungstextes die subjektive Bewertung des Bildungsprozesses und seine objektive Wirksamkeit stark beeinflusst. Im Durchschnitt machten die Schüler weniger Fehler bei traurigen Texten als bei freudigen und neutralen, aber die Arbeit mit ihnen brachte die geringste Zufriedenheit. Das größte Interesse wurde durch die Arbeit mit freudigen Texten geweckt, gleichzeitig war die Effektivität des Trainings geringer.Eine bedeutende Unsicherheitsquelle in dieser Studie ist die Methode zur Klassifizierung der emotionalen Polarität von Texten. Das Modell wurde an Texten aus einem Bereich trainiert und ohne zusätzliche Überprüfung der Klassifizierungsqualität auf Texte aus einem anderen Bereich angewendet. Die Autorin beschrieb weder Details zum Klassifizierungsmodell noch lieferte sie weitere Informationen zur Vorverarbeitung und Schulung.
Die Hauptschwierigkeit bei der Analyse von Lehrbüchern liegt daher im Fehlen von emotionalem Vokabular und Trainingskits zu diesem Thema. Wenn Forscher Texte auf Wortebene mit emotionalen Vokabeln analysierten, wurde normalerweise eine kontextunabhängige Darstellung der emotionalen Polarität für jedes Wort verwendet, unabhängig von der Position des Wortes im Satz und unabhängig von seinen anderen möglichen Bedeutungen. Darüber hinaus wird es für die Analyse von Texten auf Dokumentebene schwierig, Texte mit Emotionsklassen zu verknüpfen, da die Texte in Lehrbüchern lang sind und unterschiedliche Emotionen in einem Text ausgedrückt werden können.
5. Gemischte Datenquellen
Einige Studien verwenden Texte aus verschiedenen Quellen, um ein breiteres Spektrum an Materialien abzudecken. Wenn Autoren beispielsweise Nachrichten und Social-Media-Inhalte verwenden, können sie nicht nur die Polarität der Berichterstattung über bestimmte Ereignisse durch Nachrichtenagenturen und Regierungsbehörden messen, sondern auch die Einstellung der Menschen zu verschiedenen diskutierten Themen.
In einem im Berkman Center for Internet & Society [97] veröffentlichten Artikel untersuchte Etling den Ton der Diskussion über ukrainische Proteste während der Euromaidan-Zeit in verschiedenen russisch- und englischsprachigen Online- und traditionellen Medien und sozialen Netzwerken. Die Studie verwendete die Crimson Hexagon-Software [166], die auf der von Hopkins und King entwickelten Analysemethode [167] basiert. Die Texte wurden in Bezug auf die Einstellung zu Protesten in vier Klassen eingeteilt: positiv, neutral, negativ und nicht verwandt. Die Datenquelle waren russisch- und englischsprachige Veröffentlichungen auf Twitter, Facebook, Blogs, Foren und Nachrichtenseiten für den Zeitraum vom 21. November 2013 bis 26. Februar 2014. Aufgrund der Einschränkungen von Crimson Hexagon wurden Texte in ukrainischer Sprache nicht berücksichtigt. Es enthüllte,dass russischsprachige Quellen und Benutzer mehr Unterstützung für die Proteste zum Ausdruck brachten als erwartet. Englischsprachige Texte in den USA und in Großbritannien waren aufgrund der ideologischen Unterstützung westlicher Regierungen negativer als erwartet. Gleichzeitig war der Inhalt der sozialen Netzwerke in Großbritannien, den USA und der Ukraine im Vergleich zu den traditionellen Medien in diesen Ländern positiver. Der Hauptnachteil der Studie hängt mit dem Stimmungsklassifizierungsmodell zusammen. Zunächst schulte sie die Mindestdatenmenge, dh etwa 120 bis 140 markierte Veröffentlichungen. Zweitens wurden die Trainingsdaten nur von einem Prüfer kommentiert, was den Best Practices widerspricht [142] [161] [162]. Die Zuverlässigkeit und Qualität der Klassifizierung wurde nicht getestet, was den Grundprinzipien von überwachten Modellen für maschinelles Lernen widerspricht [168]. Außerdem,Eine vollständige Liste der analysierten Quellen wird nicht bereitgestellt, daher ist es schwierig, die Zuverlässigkeit ihrer Auswahl zu überprüfen. Darüber hinaus wurden ukrainische Texte nicht berücksichtigt, wodurch eine breite Palette von Meinungen ausgeschlossen wurde.
Kazun analysierte die Intensität und den Ton der Berichterstattung in den Medien und sozialen Netzwerken der Aktivitäten von Alexei Navalny auf der Grundlage von Daten für 2014-2016 [80]. Mit Hilfe von Medialogia erhielt der Autor mehr als 145.000 Nachrichtenartikel über Navalny von russischen Zeitungen, Websites und den drei größten Bundesfernsehkanälen. Um die Stimmung zu analysieren, verwendete Kazun die in Medialogy entwickelten Algorithmen (Klassifizierung in positive, negative oder neutrale Klassen), nachdem er sie zuvor an zweihundert manuell markierten Artikeln überprüft hatte. Es stellte sich heraus, dass traditionelle Medien Navalny eher ignorieren, außer gelegentlich Dokumente oder Nachrichten zu veröffentlichen, um die russische Opposition im Allgemeinen oder Navalny persönlich zu verunglimpfen. Insgesamt wurde Navalny in Blogs positiver aufgenommen als in anderen Medien. Die Diskussionen in diesen Artikeln waren jedoch überwiegend kritisch.Die Autoren beschrieben auch die Besonderheiten der einzelnen Medientypen und klärten die charakteristischen Veröffentlichungsstrategien und Tonmuster. Trotz der allgemeinen Negativität wird die Berichterstattung über die Aktivitäten von Navalny von Jahr zu Jahr positiver. Die Gründe für diesen Trend sind eine Abnahme der Anzahl kritischer Artikel und eine Zunahme der Anzahl positiver Artikel. Wie in allen entdeckten Beispielen für die Verwendung der Medialogy Sentiment Analysis-Algorithmen beschreiben die Autoren keine Klassifizierungsmetriken für das Zielthema.Wie in allen entdeckten Beispielen für die Verwendung der Medialogy Sentiment Analysis-Algorithmen beschreiben die Autoren keine Klassifizierungsmetriken für das Zielthema.Wie in allen entdeckten Beispielen für die Verwendung der Medialogy Sentiment Analysis-Algorithmen beschreiben die Autoren keine Klassifizierungsmetriken für das Zielthema.
In seiner Forschung [79] analysierte Brantley die ukrainische Revolution von 2013 bis 2014 anhand der Inhalte von Twitter, Facebook, YouTube, Blogs, Foren und Nachrichtenseiten. Mit Hilfe der Crimson Hexagon-Plattform hat er eine Sammlung von 2.809.476 Texten in russischer, ukrainischer und englischer Sprache zusammengestellt. Wir haben nur Texte berücksichtigt, die im Zeitraum vom 21. November 2013 bis 1. März 2014 aus der Ukraine veröffentlicht wurden. Zwei Prüfer, die alle drei Sprachen fließend sprechen, haben den Trainingsdatensatz für den BrightView-Algorithmus kommentiert, der Teil von Crimson Hexagon ist und ein nichtparametrischer Datenanalysealgorithmus ist. beschrieben in [166]. Die Texte wurden in drei Kategorien unterteilt: positiv, neutral und negativ. Tests am Crimson Hexagon ergaben eine Übereinstimmung von 92% mit der manuellen Einstufung.Zusammen mit den gesammelten Daten verwendete der Autor Informationen aus den Datensätzen Global Knowledge Graph und Events Dataset sowie Global Events Language [169]. Es stellte sich heraus, dass in der Ukraine deutliche Diskrepanzen zwischen politischen Assoziationen und Präferenzen im Zusammenhang mit sprachlichen Merkmalen bestehen. Dies wird weiter durch die Abstimmungsergebnisse der Vergangenheit bestätigt, als ukrainischsprachige Sprecher traditionell mehr Unterstützung für die Opposition zum Ausdruck brachten. Durch den direkten Vergleich von Online- und Offline-Beteiligung gelangte Brantley zu dem Schluss, dass soziale Medien die physische Entwicklung von Protesten erheblich beeinflussten, was zu einer Zunahme der Zahl der Demonstranten auf den Straßen führte.In der Ukraine gab es deutliche Diskrepanzen zwischen politischen Vereinigungen und Präferenzen im Zusammenhang mit sprachlichen Merkmalen. Dies wird weiter durch die Abstimmungsergebnisse der Vergangenheit bestätigt, als ukrainischsprachige Sprecher traditionell mehr Unterstützung für die Opposition zum Ausdruck brachten. Durch den direkten Vergleich von Online- und Offline-Beteiligung gelangte Brantley zu dem Schluss, dass soziale Medien einen erheblichen Einfluss auf die physische Entwicklung von Protesten hatten, was zu einer Zunahme der Zahl der Demonstranten auf den Straßen führte.In der Ukraine gab es deutliche Diskrepanzen zwischen politischen Vereinigungen und Präferenzen im Zusammenhang mit sprachlichen Merkmalen. Dies wird weiter durch die Abstimmungsergebnisse der Vergangenheit bestätigt, als ukrainischsprachige Sprecher traditionell mehr Unterstützung für die Opposition zum Ausdruck brachten. Durch den direkten Vergleich von Online- und Offline-Beteiligung gelangte Brantley zu dem Schluss, dass soziale Medien die physische Entwicklung von Protesten erheblich beeinflussten, was zu einer Zunahme der Zahl der Demonstranten auf den Straßen führte.dass soziale Medien die physische Entwicklung von Protesten maßgeblich beeinflussten, was zu einer Zunahme der Zahl der Demonstranten auf den Straßen führte.dass soziale Medien die physische Entwicklung von Protesten maßgeblich beeinflussten, was zu einer Zunahme der Zahl der Demonstranten auf den Straßen führte.
Der Hauptnachteil der Verwendung von Quellen unterschiedlicher Art besteht darin, dass die Autoren neben einer Vielzahl von geäußerten Meinungen mit Schwierigkeiten und Einschränkungen konfrontiert sind, die für bestimmte Arten von Quellen charakteristisch sind. Sie können mit dem Zugriff auf repräsentative Daten, einer ausführlichen Beschreibung der Einschränkungen und dem Mangel an Trainingsdaten für das ausgewählte Thema verbunden sein. In einigen Studien wurden Stimmungsanalysen und Aggregationen von Emotionsindizes auf der Grundlage einer Vielzahl von Texten ohne Unterscheidung nach Arten von Quellen durchgeführt. Bei der Aggregation von Emotionen betrachteten die Autoren beispielsweise Social-Media-Veröffentlichungen und Nachrichtenartikel als gleichwertige Einheiten. In solchen Fällen ist es möglicherweise logischer, komplexere Modelle zu verwenden, die Gewichte verwenden, um Texte aus verschiedenen Arten von Quellen genauer zu analysieren.
6. Weiter
In ein paar Tagen wird der letzte Teil veröffentlicht, in dem wir über die allgemeinen Schwierigkeiten der Forscher sowie über vielversprechende Richtungen für die Zukunft sprechen werden. Wenn Sie den gesamten Artikel auf einmal und in englischer Sprache lesen möchten, klicken Sie hier .
7. Quellen
Eine vollständige Liste der Quellen finden Sie hier .