Группа исследователей из Германии решила выяснить, насколько точно технические инструменты могут предсказывать эмоциональные оттенки в голосовых записях. Для этого они сравнили точность трех моделей машинного обучения в распознавании различных эмоций в аудиофрагментах. Результаты их исследования были опубликованы в журнале Frontiers in Psychology.
Исследователи сократили каждый аудиофрагмент до 1,5 секунды, так как именно столько времени нужно человеку для распознавания эмоций в речи. Эмоции, рассматриваемые в исследовании, включали радость, гнев, грусть, страх, отвращение и нейтральность.
Основываясь на обучающих данных, исследователи создали модели машинного обучения, работающие по одной из трех методик: глубокие нейронные сети (DNN), сверточные нейронные сети (CNN) и гибридную модель (C-DNN), объединяющую оба подхода. Затем модели были протестированы на двух наборах данных.
Результаты показали, что DNN и C-DNN демонстрируют лучшую точность, чем простое использование спектрограмм в CNN. Это означает, что классификация эмоций была правильной с более высокой вероятностью, чем при догадках, и сопоставима с точностью распознавания человеком.
Исследователи отметили, что такие модели могут быть использованы в широком спектре ситуаций, где понимание эмоционального контекста критически важно, таких как терапия и технологии межличностного общения. Они также подчеркнули необходимость дальнейших исследований, чтобы определить оптимальную длительность аудиофрагментов для распознавания эмоций.