Die Stimmungsanalyse ist zu einem leistungsstarken Werkzeug für die groß angelegte Verarbeitung von Meinungen geworden, die in einer beliebigen Textquelle zum Ausdruck kommen. Die praktische Anwendung dieses Tools auf Englisch ist ziemlich entwickelt, was über Russisch nicht gesagt werden kann. In dieser Artikelserie werden wir untersuchen, wie und zu welchen Zwecken die Sentiment-Analyse-Ansätze für russischsprachige Texte verwendet wurden, welche Ergebnisse erzielt wurden, welche Probleme aufgetreten sind und auch ein wenig über vielversprechende Richtungen sprechen. Im Gegensatz zu früheren Arbeiten habe ich mich auf angewandte Anwendungen konzentriert und nicht auf die Ansätze selbst und deren Qualität der Klassifizierung. Der erste Teil ist einleitend. Wir werden untersuchen, was „Stimmungsanalyse“ ist, was es ist und wie es in den letzten 8 Jahren zur Analyse russischsprachiger Texte verwendet wurde. Im zweiten TeilSchauen wir uns jede der 32 Hauptstudien, die ich gefunden habe, genauer an. Im dritten und letzten Teil (wieder nächste Woche) werden wir über die gemeinsamen Schwierigkeiten der Forscher sowie über vielversprechende Richtungen für die Zukunft sprechen.
NB: Der Artikel wurde für eine wissenschaftliche Zeitschrift geschrieben, daher wird es viele Links zu Quellen geben.
1. Einleitung
Die Stimmungsanalyse ist eine Klasse von Methoden zur Inhaltsanalyse in der Computerlinguistik, deren Hauptaufgabe darin besteht, Text nach seiner Stimmung zu klassifizieren. Mithilfe der Stimmungsanalyse können Forscher die Stimmung von Texten verallgemeinern und Schlussfolgerungen zu verschiedenen Themen ziehen. Diese Analyse ermöglicht es beispielsweise, den Wertpapiermarkt vorherzusagen [1], den Index des subjektiven Wohlbefindens zu berechnen [2], die Wahlergebnisse vorherzusagen [3] und die Reaktion auf bestimmte Ereignisse oder Nachrichten zu bewerten [4]. Die Stimmungsanalyse für Englisch ist bereits gut entwickelt [5] - [7], während andere Sprachen, insbesondere Russisch, bisher viel weniger Beachtung gefunden haben. Laut einer Studie von Omnibus GFK [9] nutzen 75,4 Russen (90 Millionen Menschen) über 16 Jahre das Internet. Es gibt russischsprachige Diasporas auf allen Kontinenten, aber der Großteil von ihnen lebt in der GUS.vor allem in Russland und der Ukraine. Laut einer Studie von W3Techs ist Russisch eine der führenden Sprachen in Bezug auf die Verbreitung im Internet. Bis April 2020 waren 8,6% der 10 Millionen beliebtesten Websites der Welt auf Russisch. Daher sind russischsprachige Texte eine wichtige Datenquelle für die automatische Analyse, insbesondere die Stimmungsanalyse.
Nur eine von Viksna und Jekabsons durchgeführte Umfragestudie [10] befasst sich mit der Analyse der Stimmung russischsprachiger Texte. Einige andere [11] - [14] erwähnen dies im Zusammenhang mit einem allgemeinen Vergleich mit bestehenden Ansätzen. Einige andere Studien widmen sich bestimmten Aspekten der Analyse der Stimmung russischsprachiger Texte. Zum Beispiel die Bewertung der besten Ansätze [15] - [18], der Vergleich neuronaler Netzwerkarchitekturen für die Stimmungsanalyse [19] [20] und der Vergleich offener russischsprachiger Vokabelsammlungen zur Bewertung von Stimmungen [21]. Alle diese Studien haben sich jedoch eher auf die Ansätze selbst und ihre Geschwindigkeit der Klassifizierung als auf die praktischen Anwendungs- und Analyseergebnisse konzentriert. Ich habe nur die Arbeiten betrachtet, bei denen die Ergebnisse der Analyse auf der Grundlage realer Daten erhalten wurden. Und ich habe diejenigen nicht berücksichtigt, die sich nur dem Training von Klassifikatoren widmen.Dieser Artikel ist eine komprimierte Übersetzung eines in IEEE Access veröffentlichten Artikels. Wenn Sie mehr Details wünschen oder nur auf Englisch lesen möchten - Siehier .
Der zweite Abschnitt beschreibt kurz die Aufgabe der Stimmungsanalyse und aktuelle Ansätze. Wenn Sie bereits damit vertraut sind, können Sie diese gerne überspringen. Der dritte Abschnitt ist einer der Hauptabschnitte. Er untersucht die Verwendung der Stimmungsanalyse für russischsprachige Texte und beschreibt 32 Hauptstudien, ihre Einsichten und Schwächen. Der vierte Abschnitt konzentriert sich auf aktuelle Herausforderungen und der fünfte auf vielversprechende Bereiche.
2. Kurz über die Methoden der Stimmungsanalyse
Die Stimmungsanalyse ist eine Klasse von Methoden zur Inhaltsanalyse in der Computerlinguistik, deren Hauptaufgabe darin besteht, Text nach seiner Stimmung zu klassifizieren. In einfachen Fällen reduziert sich das Problem der Stimmungsanalyse auf eine binäre Klassifizierung von Texten in positiv und negativ. Fügen Sie in einigen Fällen eine weitere Klasse neutraler Texte hinzu. Fortgeschrittenere Ansätze versuchen, emotionale Zustände zu identifizieren, die mit einem Text verbunden sind, wie z. B. Angst, Wut, Traurigkeit oder Glück. In einer Reihe von Ansätzen werden Texten Werte einer vorgegebenen Skala zugewiesen: zum Beispiel von -2 für negativ bis 2 für positiv; Somit wird die Analyse auf ein Regressionsproblem reduziert. Die aspektbasierte Stimmungsanalyse ist eine Teilmenge der Stimmungsanalyse, deren Aufgabe es ist, die Beziehung zu einem bestimmten Aspekt des Hauptdiskussionsthemas zu bestimmen.Alle Ansätze zur Stimmungsanalyse können in drei Gruppen unterteilt werden.
Der erste sind regelbasierte Ansätze(regelbasiert). Meistens verwenden sie manuell definierte Klassifizierungsregeln und emotional markierte Vokabulare. Diese Regeln berechnen normalerweise die Textklasse [22] - [24] basierend auf emotionalen Schlüsselwörtern und deren Kombination mit anderen Schlüsselwörtern. Während sie in der Materie hervorragend wirksam sind, sind regelbasierte Methoden schlecht verallgemeinerbar. Die Erstellung ist außerdem äußerst zeitaufwändig, insbesondere wenn kein Zugriff auf ein geeignetes Stimmungswörterbuch vorhanden ist. Letzteres ist besonders charakteristisch für die russische Sprache, da es darin nicht so viele Quellen gibt wie in Englisch, insbesondere im Bereich der Stimmungsanalyse. Die größten russischsprachigen Stimmungswörterbücher sind RuSentiLex [25] und LINIS Crowd [26]. Sie enthalten jedoch nur Informationen über die Tonalität von positiv nach negativ, ohne die Merkmale von Emotionen. Auf diese Weise,Es gibt keine Alternativen zu so leistungsfähigen englischsprachigen Sammlungen mit umfangreichen emotionalen Merkmalen wie SenticNet [27], SentiWordNet [28] und SentiWords [29].
Zweite Gruppe - Ansätze des maschinellen Lernens... Sie verwenden die automatische Merkmalsextraktion aus Text und wenden Algorithmen für maschinelles Lernen an. Die klassischen Algorithmen zur Klassifizierung der Polarität sind der Naive Bayes Classifier [30], der Decision Tree [31], die Logistic Regression [32] und die Support Vector Machine [33]. In den letzten Jahren wurde die Aufmerksamkeit der Forscher auf Deep-Learning-Methoden gelenkt, die den traditionellen Methoden der Stimmungsanalyse deutlich überlegen sind [34]. Dies wird durch die Chronologie des SemEval-Wettbewerbs bestätigt, bei dem die führenden Lösungen erfolgreich Faltungs- (CNN) und wiederkehrende (RNN) neuronale Netze [35] - [37] sowie Transfer-Lernmethoden [38] verwendeten.Eines der Hauptmerkmale von maschinellen Lernsystemen ist die automatische Merkmalsextraktion aus Text. Einfache Ansätze zur Darstellung von Text im Vektorraum verwenden normalerweise das Bag-of-Word-Modell. In komplexeren Systemen werden Verteilungssemantikmodelle verwendet, um Worteinbettungen zu generieren, z. B. Word2Vec [39], GloVe [40] oder FastText [41]. Es gibt auch Algorithmen zum Generieren von Einbettungen auf Satz- oder Absatzebene, mit denen das Lernen auf verschiedene Verarbeitungsaufgaben in natürlicher Sprache übertragen werden kann. Diese Algorithmen umfassen ELMo [42], Universal Satzcodierer (USE) [27], bidirektionale Encoderdarstellungen von Transformatoren (BERT) [43], verbesserte Sprachdarstellung mit informativen Entitäten (ERNIE) [44] und XLNet [45].Einer ihrer Hauptnachteile bei der Erzeugung von Einbettungen ist der Bedarf an großen Textmengen für das Training. Dies gilt jedoch für alle Methoden des maschinellen Lernens, da für alle überwachten Lernalgorithmen gekennzeichnete Datensätze zum Trainieren erforderlich sind.
Dritte Gruppe - hybride Ansätze... Sie kombinieren die Ansätze der beiden vorherigen Typen. Zum Beispiel haben Kumar und seine Kollegen ein hybrides Framework für die Stimmungsanalyse auf Persisch entwickelt, das sprachliche Regeln, Faltungsnetzwerke und LSTMs für die Stimmungsklassifizierung kombiniert [46]. Meskele und Frasincar schlugen ein hybrides ALDONAr-Aspektanalysemodell vor, das die Stimmungsontologie zur Erfassung von Stimmungsinformationen, BERT für Worteinbettungen und zwei CNN-Schichten für die erweiterte Stimmungsklassifizierung kombiniert [47]. Das Modell zeigte eine Genauigkeit von 83,8% im SenEval 2015 Task 12-Datensatz [48] und 87,1% im SemEval 2016 Task 5-Datensatz [49]. Sprachmodelle werden häufig in hybriden Algorithmen verwendet, ebenso wie regelbasierte Lösungen [50] - [52]. Einerseits,Eine Kombination aus regelbasierten Methoden und maschinellem Lernen führt normalerweise zu genaueren Ergebnissen. Andererseits erben hybride Ansätze die Schwierigkeiten und Grenzen ihrer konstituierenden Algorithmen.
3.
Um wichtige Veröffentlichungen zur angewandten Stimmungsanalyse russischsprachiger Texte zu finden, suchte ich in wissenschaftlichen Datenbanken, die die führenden Fachzeitschriften und Konferenzen der Informatik abdecken: IEEE Xplore, ACM Digital Library, ScienceDirect, SAGE Journals Online und Springer Link . Um das Spektrum der Quellen zu erweitern, habe ich neben englischsprachigen Artikeln auch russischsprachige Artikel aus dem Russian Science Citation Index (RSCI) studiert. Die Suche wurde auf Anfrage (('' SENTIMENT '' ODER '' POLARITÄT '') UND ('' ANALYSE '' ODER '' ERKENNUNG '' ODER '' KLASSIFIZIERUNG '' ODER '' MEINUNG MINING '' ODER '' THEMENMODELLIERUNG '' durchgeführt. ') UND (' 'RUSSISCH' 'oder' 'RUSSLAND' ')).Die meisten relevanten Artikel finden Sie in ScienceDirect , Springer Link und RSCI... Ich habe auch die vorläufigen Veröffentlichungen der Arbeit führender Forscher überprüft, um neue Entwicklungen nicht zu verpassen. Infolgedessen konnten wir mehrere tausend potenziell relevante Artikel sammeln, ohne graue Literatur und Vorabdrucke. Die frischesten und am häufigsten zitierten Werke wurden bevorzugt. Dann analysierte ich die Titel, Schlüsselwörter und Einführungen der übrigen Veröffentlichungen, um meine Auswahl an Quellen einzugrenzen. Die Suche wurde nur an von Experten geprüften Artikeln durchgeführt, um die Qualität der Stichprobe zu verbessern. Ich habe graue Quellen (z. B. laufende Arbeiten, Leitartikel, Dissertationen) sowie ungeeignete Quellen für meine Forschung ausgeschlossen (die keine Stimmungsklassifizierungsmodelle anwenden). Für eine detailliertere Beschreibung in diesem Artikel habe ich dann manuell 32 Hauptpublikationen ausgewählt.die mindestens einen praktischen Ansatz zur Analyse von Gefühlen in russischsprachigen Texten beschrieben.
4.
. 1. .
Ich habe beschlossen, die Ansätze nach Datenquellen zu kategorisieren, da in diesem Fall die Ansätze innerhalb der Kategorien ähnliche Ziele, Herausforderungen und Einschränkungen haben. Obwohl einige Kategorien nur eine Studie enthalten, habe ich mich entschlossen, sie aufgrund der grundlegenden Unterschiede in den verwendeten Ansätzen, Ergebnissen und Schwierigkeiten hervorzuheben. Vergessen Sie auch nicht, dass die russische Sprache in Bezug auf die Stimmungsanalyse weniger studiert wurde, so dass die Anzahl der Werke begrenzt ist. In Abb. 1 zeigt eine Reihe von Kategorien. Die meisten Ansätze stützten sich auf die Analyse von Social-Media-Daten, um die Einstellungen der Benutzer zu verschiedenen Themen zu messen. Zum Beispiel Einstellungen und Meinungen zum Konflikt in der Ukraine und zu Problemen im Zusammenhang mit Migranten. In den letzten zehn Jahren haben sich viele soziale Netzwerke zu modernen Instrumenten für soziales Engagement entwickelt [53].Daher können sie als offene und allgemein verfügbare Quellen der öffentlichen Meinung oder zumindest als eine Art Reflexion davon wahrgenommen werden [54]. UGCs aus sozialen Netzwerken als häufigste Informationsquelle wurden nach drei Kriterien untersucht: Einstellungen zu verschiedenen Themen; soziale Stimmungsindizes; Merkmale der Benutzerinteraktion mit Daten, die unterschiedliche Stimmungen ausdrücken. Die Einstellungen zu verschiedenen Themen wurden unter verschiedenen Gesichtspunkten untersucht. Zum Beispiel Einstellungen gegenüber Migranten und ethnischen Gruppen (z. B. [55]), Ausdrucksformen der Stimmung während der Ukraine-Krise (z. B. [56]), Messung des Niveaus sozialer Spannungen (z. B. [57]) oder Konzentration auf den Diskurs über einige wichtige Aspekte Fragen (zum Beispiel [58]). Typischerweise verwenden diese Ansätze eine Kombination aus Themenmodellierung und Stimmungsanalyse.Themen und verwandte Stimmungen hervorzuheben. In einem Großteil der Forschung (z. B. [59] - [67]), in der die Themenmodellierung ohne weitere Polaritätsklassifizierung angewendet wird (und daher in diesem Artikel nicht behandelt wird), wird die Stimmungsanalyse als weiteres Entwicklungsstadium bezeichnet. In einem anderen Teil der Forschung (zum Beispiel [68]) werden soziale Einstellungsindizes auf der Grundlage von Meinungen berechnet, die in sozialen Netzwerken geäußert werden, um eine Alternative zum traditionellen Index des subjektiven Wohlbefindens zu erhalten. Schließlich untersucht eine andere Forschungsarbeit (z. B. [69]) Muster der Benutzerinteraktion mit Inhalten in Abhängigkeit von ihrer emotionalen Farbe. Eine der Hauptschwierigkeiten bei solchen Studien ist die Extraktion repräsentativer Datenproben und die Auswahl relevanter Texte zur weiteren Analyse.In einem Großteil der Forschung (z. B. [59] - [67]), in der die Themenmodellierung ohne weitere Polaritätsklassifizierung angewendet wird (und daher in diesem Artikel nicht behandelt wird), wird die Stimmungsanalyse als weiteres Entwicklungsstadium bezeichnet. In einem anderen Teil der Forschung (z. B. [68]) werden soziale Einstellungsindizes auf der Grundlage von Meinungen berechnet, die in sozialen Netzwerken geäußert werden, um eine Alternative zum traditionellen Index des subjektiven Wohlbefindens zu erhalten. Schließlich untersucht eine andere Forschungsarbeit (z. B. [69]) Muster der Benutzerinteraktion mit Inhalten in Abhängigkeit von ihrer emotionalen Farbe. Eine der Hauptschwierigkeiten bei solchen Studien ist die Extraktion repräsentativer Datenproben und die Auswahl relevanter Texte für die anschließende Analyse.In einem Großteil der Forschung (z. B. [59] - [67]), in der die Themenmodellierung ohne weitere Polaritätsklassifizierung angewendet wird (und daher in diesem Artikel nicht behandelt wird), wird die Stimmungsanalyse als weiteres Entwicklungsstadium bezeichnet. In einem anderen Teil der Forschung (z. B. [68]) werden soziale Einstellungsindizes auf der Grundlage von Meinungen berechnet, die in sozialen Netzwerken geäußert werden, um eine Alternative zum traditionellen subjektiven Wohlfühlindex zu erhalten. Schließlich untersucht eine andere Forschungsarbeit (z. B. [69]) Muster der Benutzerinteraktion mit Inhalten in Abhängigkeit von ihrer emotionalen Farbe. Eine der Hauptschwierigkeiten bei solchen Studien ist die Extraktion repräsentativer Datenproben und die Auswahl relevanter Texte zur weiteren Analyse.Bei der Themenmodellierung ohne weitere Klassifizierung der Polarität (und daher werden sie in diesem Artikel nicht behandelt) wird die Stimmungsanalyse als Weiterentwicklungsphase bezeichnet. In einem anderen Teil der Forschung (z. B. [68]) werden soziale Einstellungsindizes auf der Grundlage von Meinungen berechnet, die in sozialen Netzwerken geäußert werden, um eine Alternative zum traditionellen Index des subjektiven Wohlbefindens zu erhalten. Schließlich untersucht eine andere Forschungsarbeit (z. B. [69]) Muster der Benutzerinteraktion mit Inhalten in Abhängigkeit von ihrer emotionalen Farbe. Eine der Hauptschwierigkeiten bei solchen Studien ist die Extraktion repräsentativer Datenproben und die Auswahl relevanter Texte zur weiteren Analyse.Bei der thematischen Modellierung ohne weitere Klassifizierung der Polarität (und daher werden sie in diesem Artikel nicht behandelt) wird die Stimmungsanalyse als Weiterentwicklungsphase bezeichnet. In einem anderen Teil der Forschung (zum Beispiel [68]) werden soziale Einstellungsindizes auf der Grundlage von Meinungen berechnet, die in sozialen Netzwerken geäußert werden, um eine Alternative zum traditionellen Index des subjektiven Wohlbefindens zu erhalten. Schließlich untersucht eine andere Forschungsarbeit (z. B. [69]) Muster der Benutzerinteraktion mit Inhalten in Abhängigkeit von ihrer emotionalen Farbe. Eine der Hauptschwierigkeiten bei solchen Studien ist die Extraktion repräsentativer Datenproben und die Auswahl relevanter Texte zur weiteren Analyse.
Die zweithäufigste Informationsquelle sind Bewertungen von Produkten und Dienstleistungen. Sie wurden hinsichtlich der Merkmale der Prüfer selbst (z. B. [70]), der Merkmale von Produkten und Dienstleistungen (z. B. [71]) und der Merkmale der Verkäufer (z. B. [72]) analysiert. Im Gegensatz zur Analyse von benutzergenerierten Daten aus sozialen Netzwerken ist der Zugriff auf alte Daten problemlos möglich. Websites, die Bewertungen gewidmet sind, ermöglichen es Benutzern häufig, Bewertungen zusätzlich zum Bewertungstext zu bewerten. Daher besteht keine formale Notwendigkeit, ein Stimmungsklassifizierungsmodell zu erstellen, da wir die Bewertungsklassen bereits kennen. In einigen Studien werden Stimmungsklassifizierungsmodelle jedoch ausschließlich aus akademischen Gründen verwendet. Da Social-Media-Benutzerdaten und Nutzerbewertungen häufig subjektive Gesichtspunkte widerspiegeln,Die Analyse dieser Daten unterscheidet sich von der Analyse von Nachrichten. In der Regel versuchen Journalisten, Urteile und Vorurteile, Zweifel und Zweideutigkeiten zu vermeiden, da Objektivität im Mittelpunkt ihres Berufs steht. oder zumindest Neutralität [73]. Daher verwenden Journalisten häufig keine Wörter, die sich auf positives oder negatives Vokabular beziehen, sondern greifen auf andere Arten der Meinungsäußerung zurück [74].
Die dritte Hauptquelle waren Nachrichten aus den Medien, die nach zwei Kriterien analysiert wurden: Stimmung (zum Beispiel [75]) und Bildung von Wirtschafts- und Geschäftsprognosen auf der Grundlage der Stimmung von Nachrichten (zum Beispiel [76]). Im Gegensatz zur Analyse von benutzergenerierten Daten aus sozialen Netzwerken ist der Zugriff auf alte Daten problemlos möglich, da die Medien den Zugriff darauf normalerweise nicht einschränken. Die Autoren einiger Studien haben jedoch versucht, die Einstellung der Öffentlichkeit zu bestimmten Themen zu bestimmen, was meiner Meinung nach einer weiteren Ausarbeitung bedarf. Natürlich können die Medien als Spiegelbild der öffentlichen Meinung betrachtet werden. In einigen Fällen hat jedoch die redaktionelle Politik die Einreichung beeinflusst, sodass die Nachrichten nicht immer die öffentliche Meinung widerspiegeln. Die Forscher widmeten der jüngsten Richtung etwas weniger Aufmerksamkeit: der Analyse der Stimmung von Lehrbüchern,solche Studien erschienen erst 2019. Diese Arbeiten konzentrieren sich auf den Vergleich der in verschiedenen Lehrbüchern zum Ausdruck gebrachten Gefühle (z. B. [77]) und die Auswirkungen dieser Gefühle auf den Bildungsprozess (z. B. [78]). Die größte Herausforderung ergibt sich aus dem Mangel an stimmungsspezifischem Vokabular und lehrbuchorientierten Lerndatensätzen. Darüber hinaus wird es bei analytischen Texten auf Dokumentebene schwierig, Texte einer bestimmten Stimmungsklasse zuzuordnen, da die Texte in Lehrbüchern lang sind und mehrere verschiedene Emotionen gleichzeitig enthalten können.Lehrbuch orientiert. Darüber hinaus wird es bei analytischen Texten auf Dokumentebene schwierig, Texte einer bestimmten Stimmungsklasse zuzuordnen, da die Texte in Lehrbüchern lang sind und mehrere verschiedene Emotionen gleichzeitig enthalten können.Lehrbuch orientiert. Darüber hinaus wird es bei analytischen Texten auf Dokumentebene schwierig, Texte einer bestimmten Stimmungsklasse zuzuordnen, da die Texte in Lehrbüchern lang sind und mehrere verschiedene Emotionen gleichzeitig enthalten können.
Einige Studien arbeiten mit gemischten Datenquellen, um ein breiteres Spektrum an Meinungen zu erfassen. In dieser Gruppe untersuchen Forscher normalerweise Einstellungen zu verschiedenen Themen wie der Ukraine-Krise (z. B. [79]) oder der Berichterstattung in den Medien über Alexei Navalny (z. B. [80]). Da die Quellen gemischt sind, können solche Daten für jede mögliche Forschung verwendet werden. Zusätzlich zu dem breiten Spektrum der geäußerten Meinungen sind die Autoren jedoch auch mit inhärenten Komplexitäten und Einschränkungen der Quelle konfrontiert.
Eine Zusammenfassung der gefundenen Ansätze ist in Tabelle 1 dargestellt. Wenn wir die Verteilung der Artikel nach Jahr betrachten, können wir sehen, dass die Anzahl der Studien zur Stimmung des russischsprachigen Textes in den Jahren 2014-2016 gestiegen ist und 2017 einen Höhepunkt erreicht hat. Die Anzahl der Artikel, die in denselben Zeitschriften und Konferenzberichten veröffentlicht wurden, variiert etwas. Mehr als einer der analysierten Artikel wurde nur in sieben Zeitschriften und Sammlungen veröffentlicht. Die meisten der entdeckten Artikel wurden in der Materialsammlung der Konferenz "Digitale Transformation und globale Gesellschaft" veröffentlicht.
Tabelle 1. Zusammenfassung der entdeckten Studien. RB - regelbasierte Ansätze, ML - Ansätze des maschinellen Lernens, UNK - unbekannte Ansätze, WL - Analyse auf Wortebene, DL - Analyse auf Dokumentebene.
| Kategorie | Geplanter Termin | Beschreibung | Verknüpfung | ||
|---|---|---|---|---|---|
| UGC | . | [81] | ML (Logit) | DL | |
| [82] | ML (Logit) | DL | |||
| [83] | ML (Logit) | DL | |||
| [84] | RB (SentiStrength) | DL | |||
| [55] | ML (SVM) | DL | |||
| . | [85] | RB (custom) | DL | ||
| [86] | RB (POLYARNIK) | DL | |||
| [87] | RB (SentiMental) | DL | |||
| [88] | UNK (IQBuzz) | DL | |||
| [56] | RB (custom) | DL | |||
| . | [89] | ML (SVM) | DL | ||
| [57] | RB (SentiStrength) | DL | |||
| . | [58] | DL | |||
| 2014 . | [90] | RB (SentiStrength) | DL | ||
| 2011-2012. | [91] | RB (SentiStrength) | DL | ||
| -. | [92] | ML (NBC) | DL | ||
| . | [93] | RB (custom) | WL, DL | ||
| [68] | ML (GBM) | DL | |||
| . | [69] | ML (BiGRU) | DL | ||
| , . | [70] | DL | |||
| - . | [71] | ML (NB, SGD) | DL | ||
| , . | [72] | ML (RNTN) | DL | ||
| . | [94] | RB (custom) | DL | ||
| [95] | RB (custom) | DL | |||
| . | [96] | RB (custom) | DL | ||
| . | [75] | UNK (Medialogia) | DL | ||
| . | [76] | ML (SVM) | DL | ||
| . | [77] | RB (custom) | WL | ||
| , . | [78] | ML ( ) | DL | ||
| [97] | UNK (Crimson Hexagon) | DL | |||
| [79] | UNK (Crimson Hexagon) | DL | |||
| [80] | UNK (Medialogia) | DL |
Das Verhältnis von regelbasierten Ansätzen (40,63%) und maschinellem Lernen (37,5%) war ungefähr gleich. Die erste Gruppe verwendete am häufigsten entweder einzelne regelbasierte Modelle oder SentiStrength [22], den beliebtesten Algorithmus unter gebrauchsfertigen Lösungen von Drittanbietern. In der zweiten Gruppe wurden am häufigsten die logistische Regression [32], die Support Vector Machine [33] und der naive Bayes'sche Klassifikator [30] verwendet. Am beliebtesten waren einfache Methoden des maschinellen Lernens, und nur 16,7% befanden sich in neuronalen Netzen. Seit 2019 hat der Anteil der Ansätze des maschinellen Lernens den Anteil der regelbasierten Ansätze jedoch deutlich überschritten. 15,6% der gefundenen Studien verwendeten Cloud-Dienste von Drittanbietern wie Medialogia, IQBuzz und Crimson Hexagon für die Stimmungsanalyse.In diesen Fällen konnte ich die verwendeten Ansätze aufgrund fehlender offizieller Informationen zu den angewandten Klassifizierungsalgorithmen nicht bestimmen.
In mehreren Fällen wurden methodische Mängel festgestellt, einschließlich fehlender Beschreibungen der Vorverarbeitung, des Datenmarkups, des Lernprozesses und der Klassifizierungsqualitätsmetriken. In einigen Fällen wurde das Klassifizierungsmodell nicht für einen Datensatz validiert, der sich auf den Themenbereich bezieht. Dies gilt insbesondere für die Stimmungsanalyse mit regelbasierten Ansätzen oder Diensten von Drittanbietern. Die Forscher haben Textsätze normalerweise nicht manuell markiert und konnten daher die Qualität der Klassifizierung nicht beurteilen.
5. Weiter
Der zweite Teil des Artikels wird nächste Woche veröffentlicht, in dem wir uns jede der 32 Hauptstudien, die ich gefunden habe, genauer ansehen werden. Im dritten und letzten Teil (wieder nächste Woche) werden wir über die gemeinsamen Schwierigkeiten der Forscher sowie über vielversprechende Richtungen für die Zukunft sprechen. Wenn Sie den gesamten Artikel auf einmal und in englischer Sprache lesen möchten, klicken Sie hier .
6. Quellen
Eine vollständige Liste der Quellen finden Sie hier .