Detail Artikel
IDM-VTON, dikembangkan oleh cocktailpeanutlabs, adalah skrip Pinokio yang mempermudah penggunaan model IDM-VTON (Improving Diffusion Models for Virtual Try-On), sebuah proyek open-source dari yisol (https://github.com/yisol/IDM-VTON) yang diterima di ECCV 2024. Model ini memungkinkan pengguna untuk "mencoba" pakaian secara virtual dengan menggabungkan gambar orang dan pakaian, menghasilkan rendisi realistis menggunakan pipeline difusi berbasis Stable Diffusion, IP-Adapter, dan dua UNet khusus (TryonNet dan GarmentNet). Skrip ini mendukung masking otomatis dengan OOTDiffusion dan DCI-V2, serta segmentasi manusia dengan DensePose, ideal untuk aplikasi e-commerce atau desain mode. Dioptimalkan untuk GPU NVIDIA dengan VRAM 8GB (seperti RTX 3060), Python 3.8, dan dependensi seperti PyTorch (CUDA 12.1), instalasi dilakukan melalui Pinokio (https://pinokio.computer/item?uri=https://github.com/cocktailpeanutlabs/idm-vton) atau manual dengan git clone https://github.com/cocktailpeanutlabs/idm-vton.
Proyek ini mencakung file seperti install.js, start.js, reset.js, torch.js, pinokio.js, pinokio_meta.json, dan ikon (icon.png) untuk integrasi visual di Pinokio. Antarmuka Gradio memungkinkan pengguna mengunggah gambar orang dan pakaian, dengan opsi masking otomatis atau manual, dan menghasilkan try-on visual dalam hitungan detik. Dengan 2 bintang, 1 fork, dan 7 commit di GitHub per Mei 2025, proyek ini aktif, meskipun pengguna mungkin menghadapi masalah seperti error masking pada pakaian besar atau kebutuhan VRAM tinggi (lihat https://github.com/yisol/IDM-VTON/issues). Solusi termasuk memastikan driver NVIDIA terbaru dan dataset seperti VITON-HD terstruktur dengan benar (train/test folders dengan image-densepose, agnostic-mask). Model diunduh dari Hugging Face (https://huggingface.co/yisol/IDM-VTON), dengan panduan tambahan di Civitai untuk instalasi Pinokio (https://civitai.com/articles).
IDM-VTON ideal untuk desainer mode, pengecer, dan penggemar AI yang ingin mengeksplorasi virtual try-on untuk visualisasi produk atau eksperimen kreatif. Meskipun kuat, proyek ini memerlukan GPU mumpuni dan konfigurasi teknis, dengan saran komunitas untuk menggunakan Grounded Segment Anything untuk masking lebih akurat (https://www.digitalocean.com). Komunitas aktif di GitHub dan X (@cocktailpeanut, 15 April 2025) mendukung pengembangan, dengan potensi untuk fitur seperti try-on seluruh tubuh di masa depan. Dirilis di bawah lisensi CC BY-NC-SA 4.0, IDM-VTON dari cocktailpeanutlabs menawarkan solusi inovatif untuk transformasi mode digital.