Pitch Dasar bisa ngowahi nyanyi dadi skor

Sadurungé musik elektronik dadi kategori payung kanggo genre musik modern sing béda, istilah kasebut diarani tèknik kanggo mrodhuksi musik sing nransfer audio sing digawe saka instrumen nyata dadi bentuk gelombang sing bisa direkam ing kaset, utawa dimainake liwat amp lan pengeras suara. Ing wiwitan nganti pertengahan 1900-an, piranti elektronik khusus lan synthesizer musik – mesin sing disambungake menyang komputer sing bisa ngasilake lan ngowahi swara kanthi elektronik saka macem-macem instrumen – wiwit populer.

Nanging ana masalah: meh saben perusahaan nggunakake basa pemrograman komputer dhewe kanggo ngontrol instrumen digital, dadi angel kanggo musisi kanggo narik instrumen sing beda-beda sing digawe dening manufaktur beda. Dadi, ing 1983, industri teka bebarengan lan nggawe protokol komunikasi disebut musical instrument digital interface, utawa MIDI, kanggo standarisasi carane sumber audio external ngirim pesen menyang komputer, lan kosok balene.

MIDI dianggo kaya prentah sing ngandhani komputer instrumen apa sing dimainake, cathetan apa sing dimainake ing instrumen kasebut, sepira banter lan suwene dimainake, lan efek apa yen ana. Pandhuan kasebut nyakup cathetan individu saka instrumen individu, lan ngidini swara bisa diputer maneh kanthi akurat. Nalika lagu disimpen minangka file MIDI tinimbang file audio biasa (kaya mp3 utawa CD), musisi bisa kanthi gampang ngowahi tempo, tombol, lan instrumentasi trek kasebut. Dheweke uga bisa njupuk cathetan individu, kabeh bagean instrumen, ngganti jinis instrumen, utawa duplikat trek vokal utama lan ngowahi dadi harmoni. Amarga MIDI nglacak cathetan apa sing dimainake ing instrumen apa, iku ateges skor digital, lan piranti lunak kaya Notation Player bisa kanthi gampang nerjemahake file MIDI menyang lembaran musik.

[Related: Interface The Music: An Introduction to Electronic Instrument Control]

Senajan MIDI trep kanggo akèh alasan, iku biasane mbutuhake musisi duwe sawetara Urut saka antarmuka, kaya MIDI controller keyboard, utawa kawruh carane program cathetan dening tangan. Nanging alat sing kasedhiya kanggo umum dening insinyur saka Spotify lan Soundtrap musim panas iki, sing diarani Pitch Dasar, janji bakal nyederhanakake proses iki, lan mbukak alat iki kanggo musisi sing ora duwe peralatan khusus utawa pengalaman coding.

“Kaya carane njaluk asisten swara kanggo ngenali tembung sing sampeyan ucapake lan uga ngerteni makna ing mburi tembung kasebut, kita nggunakake jaringan saraf kanggo ngerti lan ngolah audio ing musik lan podcast,” Rachel Bittner, Spotify ilmuwan sing makarya ing project, ngandika ing kirim blog September. “Karya iki nggabungake riset lan praktik ML karo kawruh domain babagan audio-pangerten dhasar babagan cara kerja musik, kayata nada, nada, tempo, frekuensi instrumen sing beda-beda, lan liya-liyane.”

Bittner nganggep manawa alat kasebut bisa dadi transkripsi “titik wiwitan” sing bisa ditindakake para seniman ing wayahe sing nylametake masalah nulis cathetan lan melodi kanthi tangan.

Alat open source iki nggunakake machine learning kanggo ngowahi audio menyang format MIDI. Waca ing tumindak kene.

[Related: Why Spotify’s music recommendations always seem so spot on]

Riset sadurunge ing papan iki wis nggawe proses mbangun model iki luwih gampang, nganti akeh. Ana piranti sing diarani Disklaviers sing ngrekam pagelaran piano wektu nyata lan nyimpen minangka file MIDI. Lan, ana akeh rekaman audio lan file MIDI sing dipasangake sing bisa digunakake peneliti kanggo nggawe algoritma. “Ana alat liyane sing nindakake akeh bagean saka Pitch Dasar,” ujare Bittner ing podcast NerdOut@Spotify. “Apa sing dakkira nggawe Basic Pitch khusus yaiku nindakake akeh perkara ing siji alat, tinimbang kudu nggunakake macem-macem alat kanggo macem-macem jinis audio.”

Kajaba iku, kauntungan sing ditawakake tinimbang sistem deteksi cathetan liyane yaiku bisa nglacak sawetara cathetan saka luwih saka siji instrumen bebarengan. Dadi, bisa nranskripsikake swara, gitar, lan nyanyi bebarengan (iki kertas sing diterbitake tim taun iki babagan teknologi ing mburi iki). Pitch Dasar uga bisa ndhukung efek swara kaya vibrato (goyang-goyang ing cathetan), glissando (nggeser ing antarane rong cathetan), bend (fluktuasi ing nada), uga amarga mekanisme deteksi lentur.

Kanggo mangerteni komponen ing model, kene sawetara bab dhasar kanggo ngerti babagan musik: Jarak sing dirasakake yaiku frekuensi dhasar, utawa dikenal minangka frekuensi paling murah saka obyek sing kedher (kayata senar biola utawa chord vokal). Musik bisa diwakili minangka sekumpulan gelombang sinus, lan saben gelombang sinus duwe frekuensi tartamtu dhewe. Ing fisika, umume swara sing dirungokake kanthi nada nada liyane kanthi harmonis ing ndhuwur. Babagan angel sing kudu ditindakake algoritma pelacakan pitch yaiku mbungkus kabeh pitches ekstra dadi sing utama, ujare Bittner. Tim kasebut nggunakake sing diarani transformasi konstanta-Q harmonis kanggo model struktur kanthi swara nada kanthi harmonik, frekuensi, lan wektu.

Tim Spotify pengin nggawe model kasebut cepet lan kurang energi, mula kudu luwih murah kanthi komputasi lan nggawe input luwih sithik. Tegese model pembelajaran mesin dhewe kudu duwe paramèter sing prasaja lan sawetara lapisan. Pitch Dasar adhedhasar jaringan saraf convolutional (CNN) sing nduweni memori puncak kurang saka 20 MB lan kurang saka 17.000 paramèter. Sing nggumunake, CNN minangka salah sawijining model pisanan sing dikenal apik kanggo ndeteksi gambar. Kanggo produk iki, Spotify nglatih lan nguji CNN babagan macem-macem set data mbukak kanggo vokal, gitar akustik, piano, synthesizer, orkestra, ing pirang-pirang genre musik. “Kanggo ngidini model cilik, Pitch Dasar dibangun kanthi lapisan tumpukan harmonik lan telung jinis output: wiwitan, cathetan, lan tikungan pitch,” tulis insinyur Spotify ing kirim blog.

[Related: Birders behold: Cornell’s Merlin app is now a one-stop shop for bird identification]

Dadi, apa gunane nggunakake learning machine kanggo tugas kaya iki? Bittner nerangake ing podcast yen dheweke bisa nggawe representasi pitch sing prasaja kanthi nggunakake klip audio saka siji instrumen sing dimainake ing siji ruangan ing siji mikropon. Nanging machine learning ngidini dheweke bisa ngerteni pola dhasar sing padha sanajan kudu nggarap instrumen, mikropon, lan kamar sing beda-beda.

Dibandhingake karo model transkripsi musik otomatis multi-instrumen 2020 sing dilatih ing data saka MusicNET, Pitch Dasar nduweni akurasi sing luwih dhuwur nalika ndeteksi cathetan. Nanging, Pitch Dasar nindakake luwih elek dibandhingake model sing dilatih kanggo ndeteksi cathetan saka instrumen tartamtu, kayata gitar lan piano. Insinyur Spotify ngakoni manawa alat kasebut ora sampurna, lan dheweke kepengin banget ngrungokake tanggapan saka komunitas lan ndeleng kepiye para musisi nggunakake.

Penasaran ndeleng cara kerjane? Coba kene-sampeyan bisa ngrekam swara langsung ing portal web utawa ngunggah file audio.

Leave a Comment

Your email address will not be published. Required fields are marked *