Пятисекундное клонирование голоса с помощью встроенных динамиков Инструментарий клонирует голос всего из пяти секунд аудиозаписи и работает кроссплатформенно как с существующими наборами данных, так и со свежими записями. Каждое загруженное высказывание отображает спектрограмму mel и фиксированное размерное вложение, числовое представление голоса, двумерные проекции которого группируются по говорящему исключительно на основе вокальных характеристик. Запись по крайней мере трех высказываний говорящего выделяет этот голос в отдельную группу, выявляя согласованные схемы активации и позволяя идентифицировать потенциального пользователя.
Компромиссы между конвейером синтеза и вокодером Синтезатор генерирует спектрограмму mel из текста, настроенного на использование целевого динамика, а вокодер преобразует ее в аудио во временной области. Система объединяет в себе кодировщик громкоговорителей, обученный для проверки на зашумленной, непереводимой речи, синтезатор последовательностей, который выдает спектрограммы mel, и вокодер с авторегрессией. При работе с наборами данных аудиокниг тон может быть менее разговорным; знаки препинания игнорируются, а паузы должны быть обозначены переносами строк. Многократные попытки синтеза приводят к незначительным отклонениям; при хорошем клонировании синтезированная вставка помещается рядом с кластером исходного голоса, что лучше всего оценить по крайней мере по трем исходным высказываниям. Предварительно обученный вокодер работает в сублинейном режиме и, как правило, более точно сопоставляет кластеры, соответствующие действительности, в то время как Griffin-Lim работает быстрее с меньшим количеством артефактов, но теряет многие голосовые характеристики и формирует отдельный кластер.