15 besten Datensätze für das Chatbot-Training

Um Benutzerprobleme schnell und ohne menschliches Eingreifen zu lösen, benötigt ein effektiver Chatbot eine große Menge an Trainingsdaten. Der größte Engpass bei der Chatbot-Entwicklung besteht jedoch darin, realistische, aufgabenorientierte Konversationsdaten zu erhalten, um diese Systeme mithilfe von Techniken des maschinellen Lernens zu trainieren. Speziell für den Beginn des neuen Threads des Kurses für maschinelles Lernen teile ich Ihnen eine Liste der besten Datensätze von Gesprächen aus Chats mit, die in Fragen und Antworten, Kundendienstdaten, interaktive Daten und mehrsprachige Daten unterteilt sind.














Um Benutzerprobleme schnell und ohne menschliches Eingreifen zu lösen, benötigt ein effektiver Chatbot eine große Menge an Trainingsdaten. Der größte Engpass bei der Chatbot-Entwicklung besteht jedoch darin, realistische, aufgabenorientierte Konversationsdaten zu erhalten, um diese Systeme mithilfe von Techniken des maschinellen Lernens zu trainieren. Wir haben eine Liste der besten Konversationsdatensätze aus Chats zusammengestellt, die in Fragen und Antworten sowie Kundendienstdaten unterteilt sind. interaktive und mehrsprachige Daten.



Frage- und Antwortdatensatz für Chatbot-Schulungen



Link . Dieser Korpus enthält Wikipedia-Artikel, handgenerierte Sachfragen und handgenerierte Antworten auf diese Fragen zur Verwendung in der wissenschaftlichen Forschung.



WikiQA-Korpus . Eine öffentlich verfügbare Reihe von Frage- und Satzpaaren, die gesammelt und kommentiert wurden, um Antworten auf offene Fragen zu finden. Um den tatsächlichen Informationsbedarf normaler Benutzer widerzuspiegeln, verwendeten sie Bing-Abfrageprotokolle als Quelle für Fragen. Jede Frage ist mit einer Wikipedia-Seite verknüpft, die möglicherweise eine Antwort enthält.



Yahoo Sprachdaten . Diese Seite enthält handverlesene QC-Datensätze von Yahoo Answers von Yahoo.



TREC (Text REtrieval Collection) QS-Sammlung: TREC hat seit 1999 Fragen beantwortet. In jeder Folge von Fragen und Antworten wurde das Problem so definiert, dass die Systeme kleine Textfragmente erhielten, die die Antwort auf offene Fragen mit möglichen Antworten nur "Ja" oder "Nein" enthielten.



Ubuntu Support Dataset



Der Ubuntu Conversation Corpus besteht aus fast einer Million Gesprächen zwischen zwei Personen, die aus Ubuntu-Chat-Protokollen extrahiert wurden, um technischen Support zu verschiedenen Ubuntu-bezogenen Problemen zu erhalten. Das Set enthält 930.000 Dialoge und über 100.000.000 Wörter.



Customer Service Relationship Strategy Kit : Sammeln Sie reisebezogene Kundendienstdaten aus vier Quellen. Konversationsprotokolle von drei kommerziellen IVA-Kundendienst- und Airline-Foren auf TripAdvisor.com im August 2016.



Twitter Kundenbetreuung . Dieser Datensatz auf Kaggle enthält über 3.000.000 Tweets und Antworten der größten Marken auf Twitter.



Datensatz des Chatbot-Trainingsdialogs



IRC-Chat-Protokolle der Semantic Web Interest Group . Dieses automatisch generierte IRC-Chat-Protokoll ist in RDF verfügbar, das seit 2004 täglich gepflegt wird, einschließlich Zeitstempeln und Aliasnamen.



Cornell Corps of Film Dialogues . Dieser Korpus enthält eine große Sammlung von Metadaten, die reich an fiktiven Dialogen aus Drehbüchern sind: Es gibt 220.579 Dialoge zwischen 10.292 Paaren von Filmhelden mit 9035 Charakteren aus 617 Filmen.



ConvAI2-Datensatz . Dieser Datensatz enthält über 2.000 Konversationen für den PersonaChat- Wettbewerb , bei dem Mitarbeiter der Crowdsourcing-Plattform Yandex.Toloka mit Bots von teilnehmenden Teams chatteten.



Santa Barbara. Gesprochener amerikanischer englischer Korpus: Dieser Datensatz enthält ungefähr 249.000 Wörter in Transkription, Audio und Zeitstempeln auf der Ebene der einzelnen Intonationseinheiten.



NPS-Chat-Korpus . Dieser Korpus besteht aus 10.567 Nachrichten aus ungefähr 500.000 Nachrichten, die gemäß den Nutzungsbedingungen in verschiedenen Online-Chats gesammelt wurden.



Zielorientierte Dialoge in Maluuba . Ein Datensatz von Gesprächen, in dem sich das Gespräch darauf konzentriert, eine Aufgabe zu erledigen oder eine Entscheidung zu treffen, z. B. Flüge und Hotels zu finden. Enthält umfassende Informationen zu über 250 Hotels, Flügen und Zielen.



Assistent des Oz Multidomain-Datensatzes (MultiWOZ)... Eine vollständig getaggte Sammlung schriftlicher Konversationen, die sich über mehrere Domänen und Themen erstrecken. Das Set enthält 10.000 Dialoge und mindestens eine Größenordnung mehr als alle zuvor kommentierten Korpora, die sich auf die Lösung von Problemen konzentrieren.



Datensatz zum Trainieren mehrsprachiger Bots



NUS Corpus . Dieser Korpus wurde erstellt, um Text aus sozialen Netzwerken zu normalisieren und zu übersetzen. Es wird erstellt, indem 2.000 Nachrichten aus dem englischen NUS-SMS-Korpus zufällig ausgewählt und dann in formelles Chinesisch übersetzt werden.



EXCITEMENT-Datensatz . Diese Kits sind in Englisch und Italienisch erhältlich und enthalten negative Kundenbewertungen, in denen Kunden Gründe für die Unzufriedenheit mit dem Unternehmen angeben.



Sie können die gesuchten Daten immer noch nicht finden? Lionbridge AI bietet benutzerdefinierte Daten zum Trainieren eines Chatbots mit maschinellem Lernen in 300 Sprachen, um Ihre Konversationen interaktiver zu gestalten und Kunden auf der ganzen Welt zu unterstützen. Und wenn Sie sich im maschinellen Lernen stärken möchten, besuchen Sie unseren Fortgeschrittenenkurs.von ML und vergessen Sie nicht den HABR- Promo-Code , der 10% zum Banner-Rabatt hinzufügt.



Bild








Weitere Kurse


empfohlene Artikel






All Articles