Очистка речи от закадрового шума нейронными сетями c FFmpeg
Для очистки аудио файла содержащего человеческую речь от закадрового шума, перед автоматическим распознаванием, пару раз использовал библиотеку RNNoise в связке с FFmpeg.
Для работы с ней надо использовать фильтр LV2 с плагином-оберткой speech-denoiser над RNNoise.
Пример:
ffmpeg -i $INPUT -af 'lv2=p=https\\://github.com/lucianodato/speech-denoiser' $OUTPUT
P.S. FFmpeg должен быть собран с —enable-lv2