An unsupervised approach for improving speech enhancement using wavelet packet transform and adaptive thresholding
Ver/
Fecha
2019-10-21Autor
Shafieian, Mohammadali
Rahmanian, Mojdeh
Metadatos
Mostrar el registro completo del ítemResumen
In this article is proposed a method for improving speech enhancement techniques that use wavelet packet transform
by applying adaptive thresholds on wavelet packet coefficients and using voice activity detection as well as applying spectral
subtraction technique. The adaptive thresholds are determined according to the level of noise in the noisy speech signal.
Furthermore, principal component analysis method is used as a powerful statistical method and linear transform technique in
analyzing wavelet packet coefficients. An advantage of the proposed methods is that unlike other algorithms based on wavelet
packet transform in which detection of unvoiced part of speech signal affects the performance of the algorithms considerably,
proposed methods don’t require any tool to detect voice or unvoiced part of speech signal. The voice activity detection utilized
is able to update noise statistics which is beneficial for the colored and non-stationary noises. The proposed methods were
evaluated for speech signals containing 30 sentences in NOIZEUS database for 5 different noise types. Simulation results
show that using wavelet packet transform combined with adaptive thresholding in our proposed methods outperform similar
methods and can significantly enhance the quality of noisy speech for different types of noises. Eventually, evaluation of
performance criteria such as SDR, SAR, SIR and SegSNR confirm the ability of the method for speech enhancement. En este artículo se proponen métodos para el procesamiento del habla que usan una transformada del paquete
wavelet aplicando umbrales adaptativos a sus coeficientes, así como la técnica de sustracción espectral usada para la detección
de actividad por voz. Los umbrales adaptativos se determinan de acuerdo con el nivel de ruido en la señal del habla. Además,
los principales métodos de análisis de componentes son utilizados por su poder estadístico así como también la técnica de
transformación lineal en el análisis de los coeficientes del paquete wavelet. Una ventaja de los métodos propuestos es que
a diferencia de otros algoritmos basados en la transformación del paquete wavelet, no requieren ninguna herramienta para
detectar la voz o parte no sonora de la señal. La detección de voz utilizada es capaz de actualizar las estadísticas de ruido,
lo cual es beneficioso para el ruido de color y no estacionario. Los métodos propuestos fueron evaluados para señales
de voz que contienen 30 oraciones en la base de datos NOIZEUS para 5 tipos de ruidos diferentes. Los resultados de la
simulación muestran que el uso de la transformación de paquetes wavelet combinado con el umbral adaptativo en los métodos
propuestos superan a otros similares y pueden mejorar significativamente la calidad del habla para diferentes tipos de ruidos.
Eventualmente, la evaluación de los criterios de desempeño como SDR, SAR, SIR y SegSNR confirman la capacidad del
método para mejora del habla.