Parler-TTS

Parler-TTS, dikembangkan oleh cocktailpeanutlabs, adalah skrip Pinokio yang mempermudah penggunaan Parler-TTS, sebuah pustaka text-to-speech (TTS) open-source dari Hugging Face (https://github.com/huggingface/parler-tts) untuk menghasilkan suara berkualitas tinggi dengan kontrol mendetail atas karakteristik seperti nada, kecepatan, dan emosi. Berdasarkan penelitian Stability AI dan Edinburgh University (https://arxiv.org/abs/2402.01912), Parler-TTS menggunakan arsitektur transformer auto-regresif dengan text encoder Flan-T5, mendukung streaming audio, SDPA, dan Flash Attention 2 untuk generasi hingga 4x lebih cepat. Skrip ini memungkinkan pengguna memasukkan prompt teks dan deskripsi suara (misalnya, “pria dengan nada cepat”) untuk menghasilkan audio realistis, ideal untuk podcast, narasi, atau aplikasi interaktif. Dioptimalkan untuk GPU NVIDIA dengan VRAM minimal 8GB (seperti RTX 3080), Python 3.10, dan dependensi seperti PyTorch (CUDA 12.1) dan Gradio, instalasi dilakukan melalui Pinokio (https://pinokio.computer/item?uri=https://github.com/cocktailpeanutlabs/parler-tts) atau manual dengan git clone https://github.com/cocktailpeanutlabs/parler-tts.

Proyek ini mencakung file seperti config.js, icon.png, install.js, pinokio.js, pinokio_meta.json, pre.js, reset.js, start.js, torch.js, dan update.js, dengan antarmuka Gradio untuk input/output audio. Model seperti Parler-TTS-Mini-v1.1 dan Large-v1, dilatih dengan 50k jam data audiobook, diunduh dari Hugging Face (https://huggingface.co/parler-tts). Dengan 8 bintang, 3 fork, dan 4 commit per Mei 2025, proyek ini aktif, meskipun pengguna mungkin menghadapi masalah seperti lambatnya kompilasi pada GPU tertentu (lihat https://github.com/huggingface/parler-tts/issues/28). Solusi termasuk memastikan driver NVIDIA terbaru dan menyesuaikan ukuran chunk untuk streaming (https://github.com/huggingface/parler-tts/blob/main/INFERENCE.md). Parler-TTS mendukung fine-tuning pada dataset khusus, seperti suara beraksen, meskipun saat ini terbatas pada bahasa Inggris (dukungan multibahasa direncanakan).

Parler-TTS ideal untuk kreator konten, pengembang, dan peneliti yang membutuhkan solusi TTS fleksibel untuk proyek multimedia atau eksperimen AI. Meskipun kuat, proyek ini memerlukan GPU mumpuni dan konfigurasi teknis, dengan saran komunitas untuk mencoba demo interaktif di Hugging Face (https://huggingface.co/spaces/parler-tts/parler_tts) sebelum instalasi lokal. Komunitas aktif di GitHub dan X (@cocktailpeanut, 15 April 2025) mendukung pengembangan, dengan potensi untuk fitur seperti generasi multibahasa di masa depan. Dirilis di bawah lisensi Apache 2.0, Parler-TTS dari cocktailpeanutlabs menawarkan akses mudah ke teknologi TTS canggih.

Detail Artikel

Newsfeed Twitter