Klonowanie Głosu

W tym wpisie przedstawię i porównam modele text to speech z funkcją klonowania głosu, Tortoise-TTS oraz Real-Time Voice Cloning. Real-Time Voice Cloning posiada interfejs graficzny wraz z podglądem spektrogramu głosu w przeciwieństwie do Tortoise-TTS, który obsługiwany jest z konsoli z zadanymi parametrami.

Do testów użyto próbek głosu Dr. Janice Polito wyodrębnionych z trzech Audio-Logów:

Audio-Log1
Audio-Log2
Audio-Log3

Wyodrębnione próbki zostały pozbawione dźwięków tła dla lepszego odwzorowania głosu podczas klonowania.

Sentencja do wypowiedzenia: „Polito form is dead, insect. I am now Polito.”

	Tortoise(– preset standard)	Voice Cloning
Czas przetwarzania	5 minut 30 sekund	~ 10 sekund
Maksymalny VRAM (MB)	15042/24576	1348/24576
Wynik
Ocena	Długie przetwarzanie i większa ilość użytych zasobów. Lepsza jakość dźwięku i głosu. Głos lepiej zestandaryzowany, mniej podobny do próbek.	Krótkie przetwarzanie i mała ilość użytych zasobów. Gorsza jakość dźwięku i głosu. Głos bardziej podobny do próbek.

Klonowanie Głosu

Dodaj komentarz Anuluj pisanie odpowiedzi