Sztuczna inteligencja Meta generuje muzykę jak żaden inny model
Podobnie jak większość dzisiejszych modeli językowych, MusicGen powstał bazie Transformera, czyli tak samo jak model językowy przewiduje kolejne znaki w zdaniu, MusicGen przewiduje kolejną sekwencję dźwiękową w utworze muzycznym. Naukowcy rozkładają dane plików audio na mniejsze komponenty za pomocą EnCodeca - tzw. tokenizera audio firmy Meta. Zespół wykorzystał do szkolenia 20 tys. godzin licencjonowanej muzyki, zbiorze danych liczącym 10 tys. utworów muzycznych, a także danych muzycznych z serwisów Shutterstock i Pond5.
Twórcy modelu twierdzą, że najlepsze efekty w generatorze osiągane są, gdy stosuje się obie metody wprowadzania, zarówno tekstowy opis, jak "prompty muzyczne' - gotowe pliki audio określające linię melodyczną utworu. Według przeprowadzonych testów MusicGen osiąga lepsze oceny niż znane generatory muzyki AI, Riffusion, Mousai, Noise2Music oraz narzędzie Google’a - MusicLM.
Źródło: the-decoder.com, zdjęcia: stock.adobe.com
Mirosław Usidus