AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition

The article presents a semi-supervised method for audio-visual speech recognition (AV-CPL), employing both labeled and unlabeled videos with continuously regenerated pseudo-labels. This method enables the recognition model to be trained using audio-visual inputs, performing speech recognition using either one or both modalities. Significant improvements in Visual Speech Recognition (VSR) performance are highlighted while maintaining practical Automatic Speech Recognition (ASR) and Audio-Visual Speech Recognition (AVSR) performance. The method leverages unlabeled visual speech to enhance VSR.

Publication date: 29 Sep 2023
Project Page: arXiv:2309.17395v1
Paper: https://arxiv.org/pdf/2309.17395

Post Views: 319

AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition

root

Leave a Reply Cancel reply

Press ESC to close

Share Article:

root

ReFlow-TTS: A Rectified Flow Model for High-fidelity Text-to-Speech

Toward Universal Speech Enhancement for Diverse Input Conditions

Leave a Reply Cancel reply

Please allow ads on our site