chatterbox
szia! elöször is nagyon szépen köszönöm, hogy ilyen szorgalmasan fejlesztgeted a modellt, én gyakran használom. a kérdésem az lenne, hogy szerinted a chatterbox új cuccával is megvalósítható lenne-e ilyen magyarosítás?
https://github.com/resemble-ai/chatterbox
Sajnos nem, ha megnézed a hibajegyeket láthatod, hogy a feltett kérdésre válaszul írják, hogy a munkájuk fentarthatósága végett fentartják a finomhangolás anyagi ellenszolgáltatás ellenében való elvégzését maguknak. Nem adnak ki finomhangoló kódot. Összegről nem beszéltek, de gondolom jelentős, ha a szerverparkjuk fentartásáról beszélünk.
https://github.com/resemble-ai/chatterbox/issues/32#issuecomment-2923048972
Szóval röviden, sajnos nem. Azaz pontosabban ilyen formán nem. A fizetős API-jukon keresztül lesz rá lehetőség...
Viszont az F5-TTS-nek van egy új ága, ami igéretes fejlesztéseket hoz a leírás szerint, majd megnézem, hogy azt meg tudom-e valósítani. F5R-TTS. Megerősítéses tréningen alapuló 2. finomhangolást eresztenek a modellre. "Állítólag" sokat javít.
https://github.com/SWivid/F5-TTS/issues/957
Az F5R-TTS-ből végül lett valami? Még ComfyUI node-ot sem találtam hozzá, miközben a projekt elvileg él:
https://github.com/FrontierLabs/F5R-TTS
Az sem tiszta, hogy ezen lehet használni a régi F5-TTS modelleket vagy sem. Abszolút homály nekem.
Egyelőre nem foglalkoztam vele, nem rég készültem el az újragondolt moduláris szinkron progival, bár még vissza van a futtatókörnyezetek telepítésére vonatkozó leírás: https://github.com/sarpba/AI_Dubbing Részemről innen van értelme a további TTS modellek fejlesztésének. Egyébként időközben a chatterbox-nak is lett comunity által írt finomhangoló kódja...
Szóval úgy gondolom az ünnepek alatt lesz kicsit több időm, akkortályt biztos lesz előrelépés mindkét fronton... (F5R és Chatter TTS)