Tidak ada video demonstrasi tersedia
Whisper-WebUI
100% selesai
Whisper-WebUI, dikembangkan oleh jhj0517, adalah aplikasi open-source yang menyediakan antarmuka web berbasis Gradio untuk transkripsi audio dan pembuatan subtitle menggunakan model Whisper dari OpenAI. Proyek ini memungkinkan pengguna untuk mengunggah file audio/video, merekam langsung dari mikrofon, atau memasukkan URL YouTube untuk menghasilkan transkrip dan subtitle dalam format SRT, VTT, atau TXT. Menggunakan faster-whisper secara default untuk efisiensi VRAM dan kecepatan transkripsi hingga 4x lebih cepat, Whisper-WebUI mendukung berbagai model seperti Tiny, Base, Small, Medium, Large (v1-v3), dan model fine-tuned dari Hugging Face (contoh: deepdml/faster-whisper-large-v3-turbo-ct2). Aplikasi ini dioptimalkan untuk GPU NVIDIA dengan VRAM minimal 4GB (seperti GTX 1650, ~4GB untuk Large-v2), Python 3.10-3.12, dan FFmpeg, dengan instalasi mudah melalui Pinokio, Docker, atau skrip install.bat/install.sh.
Antarmuka web diakses melalui start-webui.bat/start-webui.sh (menjalankan python app.py), berjalan di 🔗 http://localhost:7860 dan mendukung fitur seperti terjemahan teks-ke-teks, pemrosesan audio dari YouTube, dan pengaturan lanjutan seperti no_speech_threshold untuk sensitivitas suara rendah. Pengguna dapat memilih implementasi lain (misalnya, whisper.cpp) melalui argumen --whisper_type dan menyesuaikan parameter seperti temperatur sampling atau beam search patience (lihat wiki: 🔗 https://github.com/jhj0517/Whisper-WebUI/wiki) Dirilis di bawah lisensi MIT, proyek ini memiliki 2k bintang dan 283 fork di GitHub per Mei 2025, dengan pembaruan terbaru (Mei 2025) memperbaiki masalah Torch-CUDA dan encoding (PR #555, #547). Namun, beberapa pengguna melaporkan bug seperti kegagalan transkripsi pada model tertentu (isu #558, #549) dan dukungan terbatas untuk bahasa seperti Ibrani (isu #95). Docker Hub menyediakan image terbaru (jhj0517/whisper-webui:latest), dan proyek ini mendukung AMD GPU (contoh: RX 580) dengan ROCm (isu #85).
Whisper-WebUI ideal untuk kreator konten, pendidik, dan profesional yang membutuhkan transkripsi akurat untuk video, podcast, atau kuliah, serta subtitle untuk meningkatkan aksesibilitas. Meskipun cepat (23 detik untuk video 6 menit pada RTX 2080ti dengan Large-v2), akurasi bergantung pada kualitas audio, dan model Tiny menawarkan hasil serupa dengan waktu lebih singkat dibandingkan model besar. Komunitas aktif di GitHub, X (contoh: @jhj0517, 8 Desember 2024), dan Noted.lol mendukung pengembangan, dengan saran untuk menambahkan fitur seperti deteksi bahasa otomatis (isu #560). Whisper-WebUI adalah alat transkripsi multimodal yang kuat, mudah di-self-host, dan hemat biaya dibandingkan layanan berbayar seperti OpenAI Whisper API.
Antarmuka web diakses melalui start-webui.bat/start-webui.sh (menjalankan python app.py), berjalan di 🔗 http://localhost:7860 dan mendukung fitur seperti terjemahan teks-ke-teks, pemrosesan audio dari YouTube, dan pengaturan lanjutan seperti no_speech_threshold untuk sensitivitas suara rendah. Pengguna dapat memilih implementasi lain (misalnya, whisper.cpp) melalui argumen --whisper_type dan menyesuaikan parameter seperti temperatur sampling atau beam search patience (lihat wiki: 🔗 https://github.com/jhj0517/Whisper-WebUI/wiki) Dirilis di bawah lisensi MIT, proyek ini memiliki 2k bintang dan 283 fork di GitHub per Mei 2025, dengan pembaruan terbaru (Mei 2025) memperbaiki masalah Torch-CUDA dan encoding (PR #555, #547). Namun, beberapa pengguna melaporkan bug seperti kegagalan transkripsi pada model tertentu (isu #558, #549) dan dukungan terbatas untuk bahasa seperti Ibrani (isu #95). Docker Hub menyediakan image terbaru (jhj0517/whisper-webui:latest), dan proyek ini mendukung AMD GPU (contoh: RX 580) dengan ROCm (isu #85).
Whisper-WebUI ideal untuk kreator konten, pendidik, dan profesional yang membutuhkan transkripsi akurat untuk video, podcast, atau kuliah, serta subtitle untuk meningkatkan aksesibilitas. Meskipun cepat (23 detik untuk video 6 menit pada RTX 2080ti dengan Large-v2), akurasi bergantung pada kualitas audio, dan model Tiny menawarkan hasil serupa dengan waktu lebih singkat dibandingkan model besar. Komunitas aktif di GitHub, X (contoh: @jhj0517, 8 Desember 2024), dan Noted.lol mendukung pengembangan, dengan saran untuk menambahkan fitur seperti deteksi bahasa otomatis (isu #560). Whisper-WebUI adalah alat transkripsi multimodal yang kuat, mudah di-self-host, dan hemat biaya dibandingkan layanan berbayar seperti OpenAI Whisper API.
Newsfeed Twitter
Memuat newsfeed Twitter...