SG.hu

Szöveg alapján zenét generál a Meta új MI-eszköze

A Meta kiadta az AudioCraft nevű új, nyílt forráskódú mesterséges intelligencia-szoftverét, amellyel a felhasználók zenét és hangokat hozhatnak létre szöveges utasítások alapján.

Az alkalmazás három különböző MI-modellből áll, amelyek mindegyike a hanggenerálás különböző területeivel foglalkozik. A MusicGen szöveges bemeneteket fogad el, hogy zenét generáljon. Ezt a modellt "20 000 órányi, a Meta tulajdonában lévő vagy kifejezetten erre a célra licencelt zenén" képezték ki. Az AudioGen hangot hoz létre írott utasításokból, például kutyaugatást vagy lépéseket szimulálva, és nyilvános hangeffekteken képezték ki. A Meta EnCodec pedig valós időben képes tömöríteni és dekompresszálni a hangot a leghatékonyabb méretcsökkentés érdekében. Rengeteg mintaszámot közzétettek a készítéshez szükséges prompt szöveggel együtt, akit érdekel itt böngészhet közöttük.

A Meta csak egyike a zene és a mesterséges intelligencia kombinálásával foglalkozó rengeteg startupnak, de a Google is érdeklődik a téma iránt: a MusicLM nagyméretű nyelvi modelljük szintén szöveges kérések alapján generál hangokat, de csak kutatók számára hozzáférhető. A zenészek is már nagyon régóta kísérleteznek elektronikus hangokkal, gondoljunk csak az EDM fesztiválokra. Azonban a számítógép által generált zene könnyedén azonosítható, ezt a falat akarja áttörni a Meta; az AudioCraft és más mesterséges intelligenciával előállított generatív zenék a hangokat pusztán szövegekből és egy hatalmas hangadat-könyvtárból hozzák létre.

Az AudioCraftnak nem célja a következő nagy popsláger megalkotása, a Meta azonban úgy véli, hogy új modellje a dalok új hullámát indíthatja el, ugyanúgy, ahogy a szintetizátorok megváltoztatták a zenét, miután népszerűvé váltak. "Úgy gondoljuk, hogy a MusicGen egy új típusú hangszerré válhat - akárcsak a szintetizátorok, amikor először megjelentek" - írja a cég a blogjában. A Meta elismerte, hogy nehéz olyan mesterséges intelligenciamodelleket létrehozni, amelyek képesek zenét készíteni, mivel egy hang sokkal bonyolultabb dolog, mint egy írott szövegmodell.

A vállalat szerint az AudioCraftnak nyílt forráskódra van szüksége, hogy a képzéséhez használt adatokat diverzifikálni lehessen. "Felismertük, hogy a modelljeink képzéséhez használt adathalmazokból hiányzik a sokszínűség. A használt zenei adathalmaz nagy arányban tartalmaz nyugati stílusú zenét, és csak olyan hang-szöveg párokat tartalmaz, amelyek szövege és metaadatai angol nyelven íródtak" - mondta a Meta. "Az AudioCraft kódjának megosztásával reméljük, hogy más kutatók könnyebben tesztelhetnek új megközelítéseket a generatív modellek potenciális torzításának és visszaélésszerű használatának korlátozására vagy kiküszöbölésére."

A lemezkiadók és a művészek már megkongatták a vészharangot az MI veszélyeivel kapcsolatban, mivel sokan attól tartanak, hogy az MI-modellek szerzői jogvédelem alatt álló anyagokat használnak a képzéshez, és történelmileg nézve nem riadnak vissza érdekeik perekkel való megvédésétől. Mindenki emlékezhet arra mi történt a Napsterrel, de arról is egy bíróságnak kellett döntenie idén, hogy Ed Sheeran lemásolta-e Marvin Gaye-t a "Thinking Out Loud" című számához.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
Nem érkezett még hozzászólás. Legyél Te az első!