✌🏽 ✊🏻 👨🏼‍🎓 Open Source SOVA-Datensatz: Audio zur Spracherkennung und -synthese 💢 ☣️ 🛡️

Hallo zusammen! Wir sind ein Team von Nanosemantics und haben kürzlich das SOVA-Projekt gestartet, bei dem wir einen Datensatz für das Training neuronaler Netze und die Erstellung virtueller Assistenten auf der Basis künstlicher Intelligenz sammeln.

Wir haben einen großen Datensatz für die Schulung von Spracherkennungs-Engines vorbereitet und möchten diesen gemeinsam nutzen, damit Unternehmen ihn in ihrem eigenen Land implementieren können, um verschiedene geschäftliche Probleme zu lösen. Daten sind das neue Öl, und einer der wichtigsten Gründe für die Weiterentwicklung von Erkennungssystemen für maschinelles Lernen ist das Vorhandensein von markierten Datensätzen. Wenn Sie sich für Forschung und Entwicklung auf dem Gebiet der Sprachanalyse interessieren, gehen Sie zu Kat.-Nr.

Im Jahr 2019 erhielt Nanosemantics von der RVC Foundation einen Zuschuss, in dessen Rahmen bis Ende 2022 einer der größten offenen Datensätze in Russland erstellt werden muss. Dies ist eine großartige Gelegenheit für uns, einen wirklich nützlichen Datensatz zu erstellen. Es wird 30.000 Stunden Audioaufnahmen mit Texten, 3 Sprachen (Russisch, Englisch und Chinesisch) und einer großen Anzahl von Sprechern enthalten, deren Audio im Datensatz verwendet wird. Der Datensatz wird schrittweise (kostenlos) öffentlich zugänglich gemacht , damit Entwickler aus aller Welt damit neuronale Netze trainieren, ihre eigenen virtuellen Assistenten mit künstlicher Intelligenz erstellen und Spracherkennungssysteme trainieren können.

, , : .

, , . , — . .
. , , - , . . . , . , , .
.
. , .

, , — .

, : - , - . , , , .

( ) – , - . , , , , , , , . . () Wikipedia

: , , , , .

« »: , . , , , 70 . , . , . , .

, , . , . , , .

, (, , . .), , , . , , , , . , " / ", " " . ., .

, ?

-
Creative Commons Attribution – CC BY ( , )
Creative Commons Zero – CC0
WTFPL – Do What The Fuck You Want To Public License

, .

( )?

, .

5.1. 1235 , .

( )?

, - . .

, , , .

. , . 20 . , – - .

, , . . , , , . , .

, : , , , .

– .

. , .

, – . : , , . , , , . , , : , , , , . .

. , 20 . - , - . , , ; , , ? . .

.
.
, , .
, — .
( ), , .
, , .
, .

, .

, , , , .

VoicyBot, «» . , , . , , .

. , , — , . Open Source : . : , , , . , , , . .

Youtube

. Youtube (), . , , .

. , (FEFU) , .

, , Creative Commons – CC BY. .

YouTube “ Creative Commons”. API Youtube.

EngAudiobooksOriginal — , , .

EngAudiobooksNoisy — .

RuAudiobooksDevices — , , .

RuDevices — , .

Open Source-Datensatz SOVA — Open Source SOVA

— , . .

CER — Char Error Rate. . , .

CER — 5.

, , 95% - — .

, :

Standardeinstellungen für alle Audioaufnahmen

, , : -, .

: . , Youtube ( ), — . .

, , .

— forced alignment «» , . , , , . , , , . «» . : NLab Speech «» . -.

, «», . , - .

, — , . Voice Activity Detector — , . : 30 100 . - , 100 10 . — , : .

: , , .

«», . , : , , .

/

. .

Common Voice. , . 7 335 60

Russian Speech Database (STC Russian). 1996-1998 89 . 5 . 15 1-3 . , 200 4000 EUR . . , 10-30 .

CSS10 Russian: Single Speaker Speech Dataset. CSS10 (A Collection of Single Speaker Speech Datasets for 10 Languages) 22 , LibriVox. CC0: Public Domain.

M-AILABS Speech Dataset. 46 , LibriVox. .

Russian LibriSpeech (RuLS). , LibriVox. 98 .

Russian Open Speech To Text (STT/ASR) Dataset, OpenSTT. , . 20000 ( 2,3 TB .wav). , , YouTube, , . . CC-BY-NC ( ).

, :

, OpenSTT, , ,
OpenSTT , . , .
OpenSTT : + .

, . , SOVA . , SOVA .

, , .

2021 SOVA Dataset 11,402 . 1,1 TB .wav. , .

Open Source CC-BY 4.0. , , .

SOVA Dataset GitHub.

, . .

2021 . 10000 , . , , Youtube .

, 2022 30000 .

SOVA Dataset – Open Source SOVA.ai: . . Open Source , , « ». , , - Open Source .

. , SOVA Dataset , .

, . , , , partnership@sova.ai.

Open Source SOVA-Datensatz: Audio zur Spracherkennung und -synthese

/

More articles: