Und Chat, Bot und Logopäde. Entwicklung eines ML-basierten Dienstes zur Diagnose von Sprachfehlern bei Kindern

"Sasha ging die Autobahn entlang", "Sprich: rrrrryba", "Kuckuck Kuckuck ..." - wissen Sie, ja, diese Sätze, die uns alle in der Kindheit traumatisiert haben? Es war eine Art endloses Experiment von Eltern mit einem ungeformten gewĂĽnschten Ergebnis und vor allem der BefĂĽrchtung, dass ihr Kind mit einer Sprachbehinderung aufwächst. 





Hallo! Mein Name ist Dima Pukhov, ich bin der technische Direktor bei Cleverbots. Ich möchte Ihnen erzählen, wie wir dem Chatbot beigebracht haben, Sprachfehler zu erkennen und eine Genauigkeit von 80% bei den Diagnosen eines KI-Sprachtherapeuten zu erreichen.





Problem

Jeder zweite SchĂĽler hat Probleme mit der Aussprache, sagen Logopäden. Sie können frĂĽhzeitig beseitigt werden, aber oft werden die Schwierigkeiten auf die Kindheit zurĂĽckgefĂĽhrt, und wenn Sprachfehler offensichtlich werden, ist es schwierig, sie zu beheben. Daher kann das Spektrogramm als Dienst fĂĽr die primäre Ferndiagnose die Entwicklung und Verschlimmerung von Problemen und Signalen verhindern, wenn ein fachlicher Eingriff erforderlich ist. 





Im vergangenen Jahr hat das Pharmaunternehmen Geropharm das PRO.MOZG-Portal gestartet, um Ängste und Stereotypen in Bezug auf die kognitive Entwicklung zu bekämpfen. Dort können Sie viele nützliche und zugängliche Materialien über die Funktionsweise des Gehirns, die Funktionsweise von Krankheiten und die Funktionsweise von Krankheiten lesen Körper verändert sich. Darüber hinaus verfügt die Website über ein Spektrogramm - einen Dienst, mit dem Eltern ihr Kind in einem Spielformat testen und feststellen können, ob es Sprachfehler aufweist.





Kurz ĂĽber den Service

Für Benutzer ist die Spectrogram-Oberfläche in Form eines Chat-Bots implementiert und als Widget auf der Website integriert. Das Testen erfolgt auf spielerische Weise: Unter Anleitung der Eltern muss das Kind die vorgeschlagenen Phrasen aussprechen, die dann im Format von Audio-Nachrichten an den Bot gesendet werden müssen, und das ML-Modell bestimmt automatisch, ob die Phrase ausgesprochen wird mit einem Defekt.





Es ist wichtig, ein wenig zurĂĽckzutreten und sich daran zu erinnern, wie es am Anfang war.





In der ersten Phase der EinfĂĽhrung eines ähnlichen Dienstes wurden alle Fragebögen an einen Logopäden gesendet. Jeder Fragebogen musste angehört und bewertet werden, wenn die Sprachfähigkeiten des Kindes dem Alter entsprachen, eine Expertenmeinung abgegeben wurde und eine entsprechende Note im System vorhanden sein sollte einstellen. Und das sind mehr als 10 Einträge pro Fragebogen. 





, , , , .





– . . .





– . , , . .





–

:





  • , - (MFCC). feature engineering;









  • Deep Learning, , speech2text. , , , ;





  • . , Yandex, Google, AWS , speech2text , , .





, , – .





, :





  1. ;





  2. ( );





  3. ;





  4. .





, – , .





. , , / .





(, ) 3Sigma - . , , / .





.





spectral & rhythm features librosa , . PCA , 0.99 ROC_AUC.





, speech2text. : Yandex, Google, Amazon. , , : , speech2text , .





... , , , . , , , . ( ). , – timestamp .





– spectral & rhythm features librosa, tsfresh PCA ( ). : ROC_AUC 0.85, – , .





( 52 ; <100 ). – , .





– . onset_detection, , . balanced_accuracy_score, 0.80, .





, , . – DTW Audio Fingerprinting. , , , , .





production

  • Python;





  • Kafka – ;





  • Django .





, , . , , .





. , , : , . , , , , .





( , , ~10 ) , «» , – . , , . , . , .





, , , , -, – 80% . -, : .





In Zukunft ist ein vollständiger Ăśbergang vom Human-in-the-Loop-Modell, wenn die Teilnahme einer Person an der Diagnose erforderlich ist, zu einer vollständigen Automatisierung des Prozesses dank eines umgeschulten Modells geplant. 








All Articles