W tym wpisie przedstawię i porównam modele text to speech z funkcją klonowania głosu, Tortoise-TTS oraz Real-Time Voice Cloning. Real-Time Voice Cloning posiada interfejs graficzny wraz z podglądem spektrogramu głosu w przeciwieństwie do Tortoise-TTS, który obsługiwany jest z konsoli z zadanymi parametrami.
Do testów użyto próbek głosu Dr. Janice Polito wyodrębnionych z trzech Audio-Logów:
Wyodrębnione próbki zostały pozbawione dźwięków tła dla lepszego odwzorowania głosu podczas klonowania.
Sentencja do wypowiedzenia: „Polito form is dead, insect. I am now Polito.”
Tortoise(– preset standard) | Voice Cloning | |
Czas przetwarzania | 5 minut 30 sekund | ~ 10 sekund |
Maksymalny VRAM (MB) | 15042/24576 | 1348/24576 |
Wynik | ||
Ocena | Długie przetwarzanie i większa ilość użytych zasobów. Lepsza jakość dźwięku i głosu. Głos lepiej zestandaryzowany, mniej podobny do próbek. | Krótkie przetwarzanie i mała ilość użytych zasobów. Gorsza jakość dźwięku i głosu. Głos bardziej podobny do próbek. |
Dodaj komentarz