"Sasha ging die Autobahn entlang", "Sprich: rrrrryba", "Kuckuck Kuckuck ..." - wissen Sie, ja, diese Sätze, die uns alle in der Kindheit traumatisiert haben? Es war eine Art endloses Experiment von Eltern mit einem ungeformten gewünschten Ergebnis und vor allem der Befürchtung, dass ihr Kind mit einer Sprachbehinderung aufwächst.
Hallo! Mein Name ist Dima Pukhov, ich bin der technische Direktor bei Cleverbots. Ich möchte Ihnen erzählen, wie wir dem Chatbot beigebracht haben, Sprachfehler zu erkennen und eine Genauigkeit von 80% bei den Diagnosen eines KI-Sprachtherapeuten zu erreichen.
Problem
Jeder zweite Schüler hat Probleme mit der Aussprache, sagen Logopäden. Sie können frühzeitig beseitigt werden, aber oft werden die Schwierigkeiten auf die Kindheit zurückgeführt, und wenn Sprachfehler offensichtlich werden, ist es schwierig, sie zu beheben. Daher kann das Spektrogramm als Dienst für die primäre Ferndiagnose die Entwicklung und Verschlimmerung von Problemen und Signalen verhindern, wenn ein fachlicher Eingriff erforderlich ist.
Im vergangenen Jahr hat das Pharmaunternehmen Geropharm das PRO.MOZG-Portal gestartet, um Ängste und Stereotypen in Bezug auf die kognitive Entwicklung zu bekämpfen. Dort können Sie viele nützliche und zugängliche Materialien über die Funktionsweise des Gehirns, die Funktionsweise von Krankheiten und die Funktionsweise von Krankheiten lesen Körper verändert sich. Darüber hinaus verfügt die Website über ein Spektrogramm - einen Dienst, mit dem Eltern ihr Kind in einem Spielformat testen und feststellen können, ob es Sprachfehler aufweist.
Kurz ĂĽber den Service
Für Benutzer ist die Spectrogram-Oberfläche in Form eines Chat-Bots implementiert und als Widget auf der Website integriert. Das Testen erfolgt auf spielerische Weise: Unter Anleitung der Eltern muss das Kind die vorgeschlagenen Phrasen aussprechen, die dann im Format von Audio-Nachrichten an den Bot gesendet werden müssen, und das ML-Modell bestimmt automatisch, ob die Phrase ausgesprochen wird mit einem Defekt.
Es ist wichtig, ein wenig zurĂĽckzutreten und sich daran zu erinnern, wie es am Anfang war.
In der ersten Phase der Einführung eines ähnlichen Dienstes wurden alle Fragebögen an einen Logopäden gesendet. Jeder Fragebogen musste angehört und bewertet werden, wenn die Sprachfähigkeiten des Kindes dem Alter entsprachen, eine Expertenmeinung abgegeben wurde und eine entsprechende Note im System vorhanden sein sollte einstellen. Und das sind mehr als 10 Einträge pro Fragebogen.
, , , , .
– . . .
– . , , . .
–
:
, - (MFCC). feature engineering;
;
Deep Learning, , speech2text. , , , ;
. , Yandex, Google, AWS , speech2text , , .
, , – .
, :
;
( );
;
.
, – , .
. , , / .
(, ) 3Sigma - . , , / .
.
spectral & rhythm features librosa , . PCA , 0.99 ROC_AUC.
, speech2text. : Yandex, Google, Amazon. , , : , speech2text , .
... , , , . , , , . ( ). , – timestamp .
– spectral & rhythm features librosa, tsfresh PCA ( ). : ROC_AUC 0.85, – , .
( 52 ; <100 ). – , .
– . onset_detection, , . balanced_accuracy_score, 0.80, .
, , . – DTW Audio Fingerprinting. , , , , .
production
Python;
Kafka – ;
Django .
, , . , , .
. , , : , . , , , , .
( , , ~10 ) , «» , – . , , . , . , .
, , , , -, – 80% . -, : .
In Zukunft ist ein vollständiger Übergang vom Human-in-the-Loop-Modell, wenn die Teilnahme einer Person an der Diagnose erforderlich ist, zu einer vollständigen Automatisierung des Prozesses dank eines umgeschulten Modells geplant.