یادگیری انتقالی در آموزش آواز: ارزیابی فنی نمونههای محدود توصیفکنندهی آواز متسو سوپرانو
چکیده
1. مقدمه

مشارکتهای اصلی این تحقیق عبارتند از:

۲. روش پیشنهادی
۲.۱ مجموعه دادههای نوع صداهای کمیاب

شکل ۳. تصویری از طیفنگارهای MFCC. (الف) طیفنگار صدای میزو-سوپرانو از مجموعهداده MVS و (ب) یک صدای شهری از مجموعهداده UrbanSound8K است.
۱. نویز پسزمینه
دادههای صوتی در مجموعهی UrbanSound8K شامل نویز پسزمینهی زیاد، نامنظم و پراکنده هستند. در مقابل، مجموعهی MVS چنین نیست و بهطور کامل ریزموجهای فرکانسی صدای انسان را حفظ کرده و میزان نویز بسیار کمتری دارد. این خلوص داده باعث میشود مدل بتواند تمرکز بیشتری روی یادگیری ویژگیهای فرکانسی آواز داشته باشد. البته این نکته به این معنا نیست که آموزش اولیه مدل با UrbanSound8K هیچ کمکی به بهبود عملکرد تعمیمدهی مدل نمیکند. برعکس، ما در بخش آزمایشها نشان میدهیم که نتیجه کاملاً مثبت است.
۲. تنوع محتوای صوتی
مجموعهی UrbanSound8K شامل صداهای متنوعی از محیطهای شهری است، مانند بوق خودرو و پارس سگ، که تنوع و بینظمی زیادی در طیف ایجاد میکنند. در مقابل، مجموعهی MVS از کلیپهای آواز حرفهای تشکیل شده که ساختار صوتی منسجمتری دارند. طیف این دادهها ساختار هارمونیک پایدارتر و تغییرات زیر و بمی (Pitch) دقیقتری را نشان میدهد. بنابراین، هرچند مجموعهی UrbanSound8K ویژگیهای پایهای غنی و مناسبی برای یادگیری انتقالی فراهم میکند، اما برای انطباق با ویژگیهای خاص آواز، نیاز به تنظیم دقیقتر (Fine-tuning) وجود دارد.
۳. تخصصی بودن برچسبگذاری
در UrbanSound8K برچسبگذاری بیشتر برای تشخیص منابع صوتی و محدود به ۱۰ دسته صدای شهری است. اما در مجموعهی MVS، ما ۱۰ تکنیک تخصصی آواز را نمرهگذاری و برچسبگذاری کردهایم. به همین دلیل، برچسبها در MVS بسیار دقیقتر و تخصصیتر هستند. این ویژگی باعث میشود مدل بتواند در یادگیری خصوصیات موسیقایی سطحبالا و جزئیات تکنیکی، کارآمدتر عمل کند. نتایج ما نشان میدهد که استفاده از مجموعهدادههای تخصصی در زمینهی آواز، نقش مهمی در ارزیابی تکنیکهای آوازی دارد.
۲.۲. ضریب کپسترال فرکانس مل (MFCC)
مراحل پردازش MFCC:
۲.۳. یادگیری انتقالی (Transfer Learning)
۳. نتایج تجربی
۴. نتایج (Results)
جدول ۱. دقت مدلهای یادگیری عمیق در ارزیابی صوتی روی مجموعه داده MVS

جدول ۱ نتایج ارزیابی صوتی سه مدل را نشان میدهد. به دلیل ساختار کارآمد MobileNet v2، این مدل در تمامی صحنهها عملکرد بهتری نسبت به CRNN و CAM++ دارد. با مقایسه با پایه (بدون بارگذاری وزنهای مدلهای از پیش آموزشدیده)، تمامی مدلها پس از پیشآموزش با مجموعه دادههای اضافی (ImageNet یا Urbansound8k) ارتقا یافتهاند. در بین این مدلها، افزایش دقت پس از پیشآموزش روی مجموعه داده بزرگ تصویری ImageNet نسبتاً کوچک است (۰.۷٪ تا ۱.۹٪). در حالی که پیشآموزش روی مجموعه صوتی Urbansound 8k باعث بهبود قابل توجه دقت مدلها میشود، با میانگین افزایش ۴.۳٪. به طور خاص، CRNN افزایش ۴.۹٪ را نشان میدهد.
نکته جالب این است که وقتی پیشآموزش با ترکیب Urbansound8k و ImageNet انجام شود، عملکرد تمام مدلها به طور قابل توجهی افزایش مییابد. این امر به ویژه برای MobileNet v2 چشمگیر است که دقت ۹۴.۲٪، معادل بهبود ۹٪ نسبت به پایه را کسب کرده است. علاوه بر این، CAM++ نیز ۹٪ افزایش داشت. به طور خلاصه، تمامی مدلها پس از انتقال یادگیری با وزنهای پیشآموزش مجموعه داده اضافی، بهبود عملکرد قابل توجهی نشان دادند. این نشاندهنده سادگی و اثربخشی انتقال یادگیری برای ارزیابی صوتی در مجموعه داده MVS است.

برای تحلیل کیفی تغییرات ناشی از یادگیری انتقالی در عملکرد آموزش و تست مدل، ما مؤثرترین مدل، MobileNet v2، را بهعنوان نمونه انتخاب کردهایم. شکل ۴ شامل چهار زیر نمودار است که هر کدام تغییرات شاخصهای عملکرد MobileNet v2 را در طول آموزش و تست قبل و بعد از یادگیری انتقالی نشان میدهد. بهطور خاص، زیرنمودار ردیف اول نشان میدهد که مقادیر دقت و خطای مدل با تعداد epoch (تعداد دورهای آموزش) در طول آموزش چگونه تغییر میکند، در حالی که ردیف دوم روند تست را نشان میدهد.

با زوم روی منحنیهای دقت تست در مقابل خطای تست (شکل ۵) میتوان تغییرات عملکرد مدل ناشی از یادگیری انتقالی را تحلیل کرد. شکل ۵a نمودار منحنی خطای تست را نشان میدهد، با منحنی آبی بهعنوان baseline. همانطور که در قابهای قرمز شکل ۵a و ۵b برجسته شده است، مدل پس از یادگیری وزنهای پیشآموزش ImageNet به طور قابل توجهی سریعتر همگرا میشود، همانطور که توسط منحنی نارنجی نشان داده شده است.
با این حال، پس از یادگیری انتقالی وزنهای پیشآموزش Urbansound8k (منحنی قرمز در شکل ۵a)، سرعت همگرایی مدل بهطور قابل توجهی تغییر نکرد، هرچند خطا کاهش یافت. ما دریافتیم که آموزش مدل روی دادههای دارای نویز زمینهای برای بهبود مقاومت مدل مفید است. از آنجا که افزودن نویز یک روش استاندارد برای تقویت دادهها است، کارهای قبلی این ایده را پشتیبانی میکنند. بنابراین، تا حدودی یادگیری وزنهای پیشآموزش Urbansound8k عملکرد مدل را بهبود میبخشد.
پس از ادغام دو وزن پیشآموزش برای یادگیری انتقالی، سرعت همگرایی بهطور چشمگیری افزایش مییابد، همانطور که منحنی سبز در قاب آبی شکل ۵a نشان میدهد، که هموار و با کمترین خطا است. با افزایش تعداد آموزشها، منحنی نارنجی مبتنی بر پیشآموزش ImageNet به تدریج بیشبرازش میشود. در حالی که عملکرد تعمیمپذیری منحنی قرمز مبتنی بر Urbansound8k پایدار است. ما بر این باوریم که وزنهای پیشآموزش ImageNet به مدل کمک میکند تا به سرعت با آموزش سازگار شود، اما عملکرد تعمیمپذیری مدل را بهبود نمیبخشد. بنابراین، در طول آموزش اضافی، عملکرد به تدریج کاهش یافته و overfitting رخ میدهد.

شکل ۵ منحنی تلفات و دقت در طول فرآیند آزمایش (الف) منحنی تلفات آزمایش و (ب) منحنی دقت آزمایش است
برای دقت تست، همانطور که در شکل ۵b با قاب نارنجی برجسته شده است، مدل پس از یادگیری انتقالی با مجموعه داده صوتی Urbansound8k کمی دقت خود را بهبود داد. با این حال، پس از ترکیب مجموعه داده تصویری ImageNet، بهبود عظیمی در دقت حاصل شد، همانطور که منحنی سبز نشان میدهد. همچنین، بالاترین دقت با یادگیری انتقالی روی ImageNet تغییر نکرد، همانطور که منحنی نارنجی نشان میدهد. ما نشان دادیم که یادگیری انتقالی مشترک وزنهای پیشآموزش مجموعه دادههای تصویری و صوتی میتواند عملکرد تعمیم مدل پیشبینی را بهطور قابل توجهی بهبود بخشد. با این حال، توضیح تغییرات ویژگیها در مدل قبل و بعد از یادگیری انتقالی همچنان چالشبرانگیز است.
برای این منظور، ما از Grad-CAM برای بصریسازی نقشه فعالسازی کلاس وزندار گرادیان (Grad-CAM) ویژگیها در مدل یادگیری عمیق استفاده میکنیم تا اثر یادگیری ویژگیهای MFCC قبل و بعد از یادگیری انتقالی را تحلیل کنیم.

شکل ۶ تجسم نگاشت فعالسازی کلاس با وزن گرادیان (Grad-CAM) برای ویژگی MFCC
ستون اول شکل ۶a ویژگی MFCC را بهعنوان ورودی شبکه نشان میدهد، و ستون دوم و سوم نقشه فعالسازی کلاس وزندار گرادیان (Grad-CAM) ویژگی ورودی را نشان میدهند. Grad-CAM بهطور بصری به ما میگوید مدل در طول فرآیند یادگیری ویژگیها روی کدام مناطق تمرکز دارد.
هنگامی که پیشآموزش انجام نشده است، مدل نسبت به توزیع منطقهای ویژگیها حساس نیست و هیچ منطقه روشن در شکل ۶b دیده نمیشود. پس از وارد کردن وزنهای پیشآموزش ImageNet، مدل شروع به تمرکز روی توزیع منطقهای ویژگیها میکند، همانطور که توسط مناطق روشن در شکل ۶c نشان داده شده است، که شبکه روی مناطقی با توزیع انرژی بالاتر در اسپکتروگرام تمرکز میکند و سعی میکند ویژگیها را در این مناطق یاد بگیرد، همانند یادگیری تشخیص مناطق اطراف اشیاء در تصویر. بنابراین، مدل پیشآموزش ImageNet میتواند به اسپکتروگرامهای صوتی تعمیم یابد. با این حال، مناطق روشن پراکنده هستند و نمیتوانند بهطور دقیق روی ویژگیهای صوتی تمرکز کنند (شکل ۶d). پس از پیشآموزش مدل با مجموعه داده Urbansound8k، مدل دید واضحی به دست آورد و ویژگیهای صوتی با انرژی بالاتر و حساسیت کمتر را شناسایی کرد.
وضعیت پس از پیشآموزش مشترک با ImageNet و Urbansound8k تغییر کرد: مدل نسبت به مناطق هر ویژگی صوتی حساس شد (صرفنظر از سطح انرژی) و اطلاعات ویژگیهای درشت و ریز را یاد گرفت (شکل ۶e).
از این آزمایشها میتوان بهطور مستقیم دریافت که یادگیری انتقالی برای فرآیند یادگیری دادههای صوتی با نمونههای کم ضروری است. این نتایج نشان میدهد که حتی با یادگیری بین دو دامنه متفاوت دادههای تصویر و صدا، میتوان عملکرد تعمیم شبکه را بهبود داد. علاوه بر این، اثر یادگیری انتقالی مشترک هر دو دامنه حتی قابل توجهتر است.

شکل ۷. مقایسه نتایج پیشبینی مدل.
بصریسازی نتایج پیشبینی برای سه مجموعه ارزیابی صوتی در شکل ۷ نشان داده شده است. هر مجموعه داده شامل یک نمودار هیستوگرام و نمودار رادار است. این نمودارها توزیع نمرههای تکنیک را پس از روشهای مختلف آموزش نشان میدهند. ستون اول (شکل ۷a) نتایج پیشبینی بدون پیشآموزش را نشان میدهد، ستون دوم (شکل ۷b) نتایج مدل با پیشآموزش مشترک ImageNet و Urbansound8k را نشان میدهد، و ستون آخر (شکل ۷c) برچسبها را نشان میدهد.
با مقایسه نمودارهای ستون اول با ستون دوم، میتوان مشاهده کرد که یادگیری انتقالی منجر به تغییر نمرهها در همه دستهها شده است. اگر نتایج ستون دوم را با برچسبهای ستون سوم مقایسه کنیم، میبینیم که مدل هر دسته را با دقت بیشتری پیشبینی میکند. این همچنین نشان میدهد که یادگیری انتقالی عملکرد تعمیم مدل را بهبود میبخشد.

شکل ۸. مقایسه ماتریس سردرگمی.
شکل ۸ چهار ماتریس سردرگمی مربوط به پیشبینیها تحت شرایط مختلف آموزش مدل را نشان میدهد. هر ماتریس عملکرد مدل در ارزیابی را نشان میدهد و دقت ماتریسها در بالای هر ماتریس نمایش داده شده است. پس از یادگیری انتقالی، دقت پیشبینی مدل به تدریج افزایش مییابد. بهویژه، ترکیب Urbansound8k و ImageNet منجر به دقت پیشبینی مدل تا ۹۴.۲٪ شد. سردرگمی بین نتایج ۲-نقطهای و ۳-نقطهای در مدل پایه بیشترین میزان را دارد، که بهتدریج پس از پیشآموزش کاهش مییابد.
با تحلیل این چهار ماتریس سردرگمی، میتوان نتیجه گرفت که پیشآموزش میتواند عملکرد امتیازدهی مدلهای یادگیری عمیق را بهطور قابل توجهی بهبود بخشد. استراتژی پیشآموزش ترکیبی (استفاده از ImageNet و Urbansound8k) دقت را افزایش داده و باعث میشود مدل در شرایط مختلف بهتر عمل کند.
⸻
۵. بحث
۱. تأثیر یادگیری انتقالی مجموعه داده تصویری روی مدلها:
مدل پیشآموزش ImageNet را میتوان بهعنوان یک آشکارساز بافت عالی در نظر گرفت که میتواند بهطور مؤثر به اسپکتروگرامهای MFCC تعمیم یابد، همانطور که در Grad-CAM (شکل ۶) دیده میشود، که نسبت به موجی بودن انرژی صوت حساس است و با تشخیص بافت صوتی بهطور تطبیقی به مدل کمک میکند تا ویژگیهای صوتی را سریع شناسایی کند، همانطور که در منحنی تست (شکل ۵) مشاهده شد.
۲. تأثیر یادگیری انتقالی مجموعه داده صوتی روی مدلها:
تنوع صداهای محیطی در مجموعه داده UrbanSound8K و دادههای آوازی در MVS ما، باعث میشود مدل راحتتر ویژگیهای مشترک صداها را کشف کند، حتی اگر محتوا متفاوت باشد. نویز پسزمینه تا حدی مقاومت مدل را بهبود میبخشد.
۳. تأثیر یادگیری انتقالی مشترک روی مدلها:
ما معتقدیم یادگیری انتقالی مشترک یک فرآیند ساده “۱+۱=۲” نیست، بلکه یک فرآیند تطبیق ویژگی چندرسانهای است. مدل ویژگیهای مختلف صوت را یاد میگیرد. ما آزمایشهای گستردهای انجام خواهیم داد و اصول و کاربردهای آن را در زمینه چندرسانهای در تحقیقات آینده عمیقاً بررسی خواهیم کرد.
۴. کارهای آینده و بهبودها:
در آینده، هدف اول ما افزایش اندازه و حجم مجموعه داده برای آموزش مقاوم و جمعآوری مواد صوتی بسیار گستردهتر است. سپس کیفیت برچسبها را بهبود خواهیم داد و توزیع نمره را دقیقتر خواهیم کرد. ما به دنبال بهروز ماندن با روشهای پیشرفته یادگیری انتقالی و استفاده از مدلهای مقاومتر برای بهبود کیفیت ارزیابی صوتی در تحقیقات بعدی خواهیم بود. همزمان، قصد داریم سناریوهای کاربردی ارزیابی تکنیک آواز را با افزودن ابعاد احساسی موسیقی گسترش دهیم، زیرا موسیقی دارای اطلاعات چندبعدی غنی است و Bel canto یک تجسم هنری ترکیب موسیقی و احساس است.
⸻
۶. نتیجهگیری
در این مقاله، مجموعه داده آوازی Mezzo-soprano Vocal Set (MVS) را برای کمیسازی و ارزیابی تکنیکهای آواز با استفاده از یادگیری عمیق ایجاد کردیم. همزمان، مدلها را روی مجموعه دادههای ImageNet و Urbansound8k پیشآموزش دادیم تا مشکلات دقت پایین پیشبینی و عملکرد تعمیم ضعیف مدلهای ارزیابی ناشی از کمبود نمونههای داده را رفع کنیم. نتایج تجربی ما نشان میدهد که پس از یادگیری انتقالی، OAcc همه مدلها به طور متوسط ۸.۳٪ افزایش یافته است، و بالاترین مدل به دقت ۹۴.۲٪ رسید. برای mezzo-soprano که نوع صدای کمیاب است، کار ما نه تنها روش علمی برای ارزیابی تکنیک آواز ارائه میدهد، بلکه ابزار مؤثرتری برای آموزش شخصیسازیشده و مؤثر به مربیان فراهم میکند.
1. Chua, S. L. & Welch, G. F. A quantitative study of experiences impacting music teacher
development. Psychol. Music 49, 445–461 (2021).
2. Cardoso, N. S. V., Lucena, J. A. & Gomes, A. D. O. C. Immediate Effect of a Resonance Tube
on the Vocal Range Profile of Choristers. J. Voice 34, 667–674 (2020).
3. DeMarco, L. E. The Fact of the Castrato and the Myth of the Countertenor. Music. Q. 86, 174
185 (2002).
4. Sataloff, R. T. Anatomy and Physiology of the Voice. in Dentofacial Anomalies: Implications
for Voice and Wind Instrument Performance (eds. Hamdan, A. L., Sataloff, R. T., Trollinger, V.
& Hawkshaw, M. J.) 3–13 (Springer International Publishing, Cham, 2021).
5. Mayr, A. Investigating the Voce Faringea: Physiological and Acoustic Characteristics of the
Bel Canto Tenor’s Forgotten Singing Practice. J. Voice 31, 255.e13-255.e23 (2017).
6. Esling, J. H. Pharyngeal consonants and the aryepiglottic sphincter. J. Int. Phon. Assoc. 26, 65
88 (1996).
7. Wang, X. & Wang, T. Voice Recognition and Evaluation of Vocal Music Based on Neural
Network. Comput. Intell. Neurosci. 2022, 3466987 (2022).
8. Diwakar, M. P. & Gupta, B. VGGish Deep Learning Model: Audio Feature Extraction and
Analysis. in Data Management, Analytics and Innovation (eds. Sharma, N., Goje, A. C.,
Chakrabarti, A. & Bruckstein, A. M.) 59–70 (Springer Nature, Singapore, 2024).
9. Chakravarty, S., Khandelwal, R. R. & Dhote, K. M. Feature Extraction Techniques for Deep
Learning based Speech Classification. in 2023 14th International Conference on Computing
Communication and Networking Technologies (ICCCNT) 1–6 (2023).
10. Dong, M. Convolutional Neural Network Achieves Human-level Accuracy in Music Genre
Classification. Preprint at http://arxiv.org/abs/1802.09697 (2018).
11. Choi, K., Fazekas, G., Sandler, M. & Cho, K. Convolutional recurrent neural networks for
music classification. in 2017 IEEE International Conference on Acoustics, Speech and Signal
Processing (ICASSP) 2392–2396 (2017).
12. Zhang, W., Lei, W., Xu, X. & Xing, X. Improved Music Genre Classification with
Convolutional Neural Networks. in Interspeech 2016 3304–3308 (ISCA, 2016).
13. Stefanus & Lestari, D. P. Classification of Vocal Type in Choir Using Convolutional Recurrent
Neural Network (CRNN). in 2023 10th International Conference on Advanced Informatics:
Concept, Theory and Application (ICAICTA) 1–6 (IEEE, Lombok, Indonesia, 2023).
14. Demir, F., Abdullah, D. A. & Sengur, A. A New Deep CNN Model for Environmental Sound
Classification. IEEE Access 8, 66529–66537 (2020).
15. Guzhov, A., Raue, F., Hees, J. & Dengel, A. ESResNet: Environmental Sound Classification
Based on Visual Domain Models. in 2020 25th International Conference on Pattern
Recognition (ICPR) 4933–4940 (2021).
16. Gemmeke, J. F. et al. Audio Set: An ontology and human-labeled dataset for audio events. in
2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
776–780 (IEEE, New Orleans, LA, 2017).
17. Homburg, H., Mierswa, I., Möller, B., Morik, K. & Wurst, M. A Benchmark Dataset for Audio
Classification and Clustering. in ISMIR vol. 2005 528–31 (2005).
18. Fonseca, E., Favory, X., Pons, J., Font, F. & Serra, X. FSD50K: An Open Dataset of Human
Labeled Sound Events. IEEEACM Trans. Audio Speech Lang. Process. 30, 829–852 (2022).
19. Piczak, K. J. ESC: Dataset for environmental sound classification. in Proceedings of the 23rd
ACM international conference on Multimedia 1015–1018 (ACM, Brisbane Australia, 2015).
20. Chen, H., Xie, W., Vedaldi, A. & Zisserman, A. Vggsound: A Large-Scale Audio-Visual Dataset.
in ICASSP 2020 – 2020 IEEE International Conference on Acoustics, Speech and Signal
Processing (ICASSP) 721–725 (IEEE, Barcelona, Spain, 2020).
21. Brandner, M., Bereuter, P. A., Kadiri, S. R. & Sontacchi, A. Classification of Phonation Modes
in Classical Singing Using Modulation Power Spectral Features. IEEE Access 11, 29149–29161
(2023).
22. Iqbal, T., Cao, Y., Kong, Q., Plumbley, M. D. & Wang, W. Learning with out-of-distribution
data for audio classification. in ICASSP 2020 – 2020 IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP) 636–640 (IEEE, Barcelona, Spain, 2020).
23. Ghani, B., Denton, T., Kahl, S. & Klinck, H. Global birdsong embeddings enable superior
transfer learning for bioacoustic classification. Sci. Rep. 13, 22876 (2023).
24. Heggan, C., Budgett, S., Hospedales, T. & Yaghoobi, M. MetaAudio: A Few-Shot Audio
Classification Benchmark. in Artificial Neural Networks and Machine Learning – ICANN 2022
(eds. Pimenidis, E., Angelov, P., Jayne, C., Papaleonidas, A. & Aydin, M.) vol. 13529 219–230
(Springer International Publishing, Cham, 2022).
25. Wang, Y., Bryan, N. J., Cartwright, M., Pablo Bello, J. & Salamon, J. Few-shot continual
learning for audio classification. in ICASSP 2021 – 2021 IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP) 321–325 (IEEE, Toronto, ON, Canada,
2021).
26. Pan, S. J. & Yang, Q. A Survey on Transfer Learning. IEEE Trans. Knowl. Data Eng. 22, 1345
1359 (2010).
27. Pratama, K. B., Suyanto, S. & Rachmawati, E. Human Vocal Type Classification using MFCC
and Convolutional Neural Network. in 2021 International Conference on Communication &
Information Technology (ICICT) 43–48 (IEEE, Basrah, Iraq, 2021).
28. Badrinarayanan, V., Kendall, A. & Cipolla, R. SegNet: A Deep Convolutional Encoder-Decoder
Architecture for Image Segmentation. IEEE Trans. Pattern Anal. Mach. Intell. 39, 2481–2495
(2017).
29. Iglovikov, V. & Shvets, A. TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet
for Image Segmentation. Preprint at http://arxiv.org/abs/1801.05746 (2018).
30. Majkowska, A. et al. Chest Radiograph Interpretation with Deep Learning Models: Assessment
with Radiologist-adjudicated Reference Standards and Population-adjusted Evaluation.
Radiology 294, 421–431 (2020).
31. Gulshan, V. et al. Development and Validation of a Deep Learning Algorithm for Detection of
Diabetic Retinopathy in Retinal Fundus Photographs. JAMA 316, 2402–2410 (2016).
32. Salamon, J., Jacoby, C. & Bello, J. P. A Dataset and Taxonomy for Urban Sound Research. in
Proceedings of the 22nd ACM international conference on Multimedia 1041–1044 (Association
for Computing Machinery, New York, NY, USA, 2014).
33. Deng, J. et al. ImageNet: A Large-Scale Hierarchical Image Database. in 2009 IEEE
Conference on Computer Vision and Pattern Recognition 248–255 (2009).
34. Gwardys, G. & Grzywczak, D. Deep Image Features in Music Information Retrieval. Int. J.
Electron. Telecommun. Vol. 60, No. 4, 321–326 (2014).
35. Sang, J., Park, S. & Lee, J. Convolutional Recurrent Neural Networks for Urban Sound
Classification Using Raw Waveforms. in 2018 26th European Signal Processing Conference
(EUSIPCO) 2444–2448 (IEEE, Rome, 2018).
36. Sandler, M., Howard, A., Zhu, M., Zhmoginov, A. & Chen, L.-C. MobileNetV2: Inverted
Residuals and Linear Bottlenecks. in 4510–4520 (2018).
37. Wang, H., Zheng, S., Chen, Y., Cheng, L. & Chen, Q. CAM++: A Fast and Efficient Network
for Speaker Verification Using Context-Aware Masking. Preprint at (2023).
38. Kadiri, S. R., Alku, P. & Yegnanarayana, B. Analysis and classification of phonation types in
speech and singing voice. Speech Commun. 118, 33–47 (2020).
39. Chen, C. H. Pattern Recognition and Artificial Intelligence. (Elsevier, 2013).
40. Davis, S. & Mermelstein, P. Comparison of parametric representations for monosyllabic word
recognition in continuously spoken sentences. IEEE Trans. Acoust. Speech Signal Process. 28,
357–366 (1980).
41. Cappellazzo, U., Falavigna, D., Brutti, A. & Ravanelli, M. Parameter-Efficient Transfer
Learning of Audio Spectrogram Transformers. Preprint at http://arxiv.org/abs/2312.03694
(2024).
42. Paszke, A. et al. PyTorch: An Imperative Style, High-Performance Deep Learning Library. in
Advances in Neural Information Processing Systems vol. 32 (Curran Associates, Inc., 2019).
43. Krizhevsky, A., Sutskever, I. & Hinton, G. E. ImageNet Classification with Deep Convolutional
Neural Networks. in Advances in Neural Information Processing Systems vol. 25 (Curran
Associates, Inc., 2012).
44. Palanisamy, K., Singhania, D. & Yao, A. Rethinking CNN Models for Audio Classification.
Preprint at https://doi.org/10.48550/arXiv.2007.11154 (2020).
45. Selvaraju, R. R. et al. Grad-CAM: Visual Explanations from Deep Networks via Gradient
based Localization. in 618–626 (2017).