Sztuczna inteligencja Meta generuje muzykę jak żaden inny model

Meta - firma macierzysta Facebooka udostępniła model sztucznej inteligencji MusicGen, który pozwala generować od kilku do kilkudziesięciu sekund muzyki na podstawie opisu tekstowego (prompta) lub gotowego, załadowanego przez użytkownika przykładu muzycznego, jako podstawy generacji. Jest on dostępny publicznie w serwisie Huggin Face Spaces, jak również w Google Colab.

Podobnie jak większość dzisiejszych modeli językowych, MusicGen powstał bazie Transformera, czyli tak samo jak model językowy przewiduje kolejne znaki w zdaniu, MusicGen przewiduje kolejną sekwencję dźwiękową w utworze muzycznym. Naukowcy rozkładają dane plików audio na mniejsze komponenty za pomocą EnCodeca - tzw. tokenizera audio firmy Meta. Zespół wykorzystał do szkolenia 20 tys. godzin licencjonowanej muzyki, zbiorze danych liczącym 10 tys. utworów muzycznych, a także danych muzycznych z serwisów Shutterstock i Pond5.

Twórcy modelu twierdzą, że najlepsze efekty w generatorze osiągane są, gdy stosuje się obie metody wprowadzania, zarówno tekstowy opis, jak "prompty muzyczne' - gotowe pliki audio określające linię melodyczną utworu. Według przeprowadzonych testów MusicGen osiąga lepsze oceny niż znane generatory muzyki AI, Riffusion, Mousai, Noise2Music oraz narzędzie Google’a - MusicLM.

Źródło: the-decoder.com, zdjęcia: stock.adobe.com

Mirosław Usidus