Klonowanie Głosu

W tym wpisie przedstawię i porównam modele text to speech z funkcją klonowania głosu, Tortoise-TTS oraz Real-Time Voice Cloning. Real-Time Voice Cloning posiada interfejs graficzny wraz z podglądem spektrogramu głosu w przeciwieństwie do Tortoise-TTS, który obsługiwany jest z konsoli z zadanymi parametrami.

Do testów użyto próbek głosu Dr. Janice Polito wyodrębnionych z trzech Audio-Logów:

Wyodrębnione próbki zostały pozbawione dźwięków tła dla lepszego odwzorowania głosu podczas klonowania.

Sentencja do wypowiedzenia: „Polito form is dead, insect. I am now Polito.”

Tortoise(– preset standard)Voice Cloning
Czas przetwarzania5 minut 30 sekund~ 10 sekund
Maksymalny VRAM (MB)15042/245761348/24576
Wynik
OcenaDługie przetwarzanie i większa ilość użytych zasobów.
Lepsza jakość dźwięku i głosu. Głos lepiej zestandaryzowany, mniej podobny do próbek.
Krótkie przetwarzanie i mała ilość użytych zasobów. Gorsza jakość dźwięku i głosu. Głos bardziej podobny do próbek.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *