September 6, 2022

心得－中研院 summer intern

2022/7/1 開始在中研院楊奕軒老師的實驗室實習的心得

很感謝老師還有學長姐花時間帶我，讓我能在前輩已走過的經驗下，在自己喜歡的領域盡情探索而不會踩太多坑。我很開心我有學到很多東西，例如把原本沒聽過的diffusion model學到可以拿來把玩、學會如何distributed training。

我不喜歡聽課，像學校期望學生做的那樣。對我來說，學東西最好的方式就是混進比我厲害的一群人之中，想辦法跟他們做一樣的事。實驗室是一個有源源不絕的新知的地方，有什麼新東西就會被貼上來討論，或是會看到有人開始著手研究。大家研究了厲害的東西，然後發paper。如果我也學著做到如此，對我的生涯是大有幫助的，且我能得到成就感。雖然不是完全確定我以後要當researcher，但如果是的話，這個實習經驗是我在成為researcher的路上重要的起步。

我之前一直在抱怨(無理取鬧)為什麼志同道合的朋友那麼難找。我喜歡ML和音樂，就算是在資工系上真的喜歡這兩者的人也很少，畢竟資訊的子領域太多了。而實習期間，我則能如願遇到領域內的佼佼者、有研究熱忱的人。這裡讓我找回離開科學班後想念的那種純粹的學術氛圍，充滿可以拿音樂、ML、”昨天train的怎麼樣”來當日常話題的人們，我覺得很舒適。

我的研究題目是用diffusion model生成鋼琴流行音樂。研究動機是我想做出好聽的音樂，但我自己沒能力，所以叫AI來做。而且如果AI能在給定的範圍內無限的sample音樂出來，就不會有聽膩的問題了。

Diffusion model算是新東西，而且我在初期實驗得到不錯的結果(發現diffusion model有能力生成好聽的鋼琴音樂)，所以我覺得這個研究蠻有發展性的。接下來還有很多測試要做，看可以往哪些應用發展。

寫code很累，因為data representation是自己設計的，我從6月中花一個月寫data pipeline，從下載、分析、過濾、轉midi、轉json、轉tensor到再轉回來。然後找一份看起來最好用的diffusion model code下來，針對生成鋼琴音樂的功能到處改，還要處理tensorboard輸出等等。

儘管如此，對音樂的興趣始終讓我不對研究感到厭煩。我聽著音樂寫code，期許要讓我做的AI也做出這麼”像音樂”的音樂，同時利用我自身聽音樂的感知做為設計模型的靈感，例如要讓模型顯性的感知到和聲，就要讓同一時間的每個音一起輸入模型；人對”和弦不同”感受的差異大於”同和弦但不同組成音”，所以也許在spectrogram上算loss比較合理。在AI能生成出稍微好聽的兩小節音樂片段時，我挑了一個片段把它拉進去DAW裡面，以其為基礎加油添醋、套各種樂器，改編成完整的音樂(如果沒有這個生成的片段，以我的功力是很難編出完整曲子的)。這個過程讓我意識到僅僅最初步的生成模型，就有提供編曲者強大靈感的能力，並期待我能進一步做出更強的應用。

由生成出來的 midi 改編的音樂: