یادگیری انتقالی در آموزش آواز: ارزیابی فنی نمونه‌های محدود توصیف‌کننده‌ی آواز متسو سوپرانو

چکیده

آموزش آواز در زمینه موسیقی به دلیل تفاوت‌های فردی در صداهای خوانندگان و معیارهای کمی متفاوت تکنیک‌های آواز، دشوار به کمی‌سازی است. یادگیری عمیق به دلیل توانایی خود در پردازش داده‌های پیچیده و انجام تحلیل کمی، پتانسیل بالایی برای کاربرد در آموزش موسیقی دارد. با این حال، ارزیابی دقیق نمونه‌های محدود از انواع صوتی نادر، مانند محدوده‌ی آواز متسو سوپرانو ، نیازمند داده‌های وسیع و با برچسب دقیق است تا بتوان از مدل‌های یادگیری عمیق استفاده کرد.

برای رسیدن به این هدف، از یادگیری انتقالی استفاده می‌کنیم و مدل‌های یادگیری عمیق از پیش آموزش‌دیده روی داده‌های ImageNet و UrbanSound8K را به کار می‌بریم تا دقت ارزیابی تکنیک‌های آواز را افزایش دهیم. علاوه بر این، مشکل کمبود نمونه‌ها را با ساخت مجموعه داده‌ی اختصاصی “Mezzo-soprano Vocal Set (MVS)” برای ارزیابی تکنیک‌های آواز حل کردیم. نتایج آزمایش‌ها نشان می‌دهد که یادگیری انتقالی دقت کلی (OAcc) تمام مدل‌ها را به طور متوسط 8.3٪ افزایش می‌دهد و بیشترین دقت به 94.2٪ می‌رسد. این کار نه تنها روش جدیدی برای ارزیابی تکنیک‌های آواز مزوسوپرانو ارائه می‌دهد، بلکه یک روش کمی جدید برای آموزش موسیقی معرفی می‌کند.

1. مقدمه

در آموزش آواز، ارزیابی کمی تکنیک‌های آواز همواره یک مسئله حل‌نشده بوده است. این مشکل عمدتاً ناشی از تنوع روش‌های تدریس مربیان و تفاوت‌های فردی صدا و شرایط فیزیکی هنرجویان است. این عوامل توسعه ارزیابی کمی منظم، به‌ویژه برای انواع صوتی نادر مانند مزوسوپرانو، کانترتنور و باس، را دشوار می‌کنند.

از دیدگاه فیزیولوژیکی، انواع صدا توسط عوامل مختلفی تعیین می‌شوند، از جمله طول، ضخامت و کشش تارهای صوتی، و همچنین اندازه و شکل حفره دهان و حلق. برای مثال، مزوسوپرانوها معمولاً تارهای صوتی کمی بلندتر و ضخیم‌تر دارند که امکان تولید صدای پایین‌تر را فراهم می‌کند. به همین دلیل، آن‌ها دارای گستره‌ی صوتی وسیع، زیر و بم متعادل و عملکرد عالی در رِنج پایین-میانی هستند. تعداد کمی از خوانندگان زن این شرایط خاص صوتی را دارند.

علاوه بر این، به دلیل ساختار خاص تارهای صوتی، مزوسوپرانوها (در مقایسه با سوپرانوها) به حمایت بیشتری از دیافراگم و عضلات تنفسی مرکزی نیاز دارند تا لرزش مستمر تارهای صوتی در گام‌های مشخص را حفظ کنند. دشواری‌های تمرین فنی، کمبود مزوسوپرانوها را تشدید می‌کند. مزوسوپرانوها تمایل بیشتری به صدای سینه‌ای دارند که باعث می‌شود نرمال‌سازی رِنج‌های بالا و پایین و تمرین روی منطقه تغییر صدا پیچیده‌تر از سایر انواع باشد.

در ارزیابی‌های سنتی آواز، تکیه بیش از حد بر تجربه و قضاوت ذهنی مربی باعث می‌شود توانایی واقعی خواننده به‌طور عینی و دقیق منعکس نشود. در این زمینه، تکنیک‌های یادگیری عمیق پتانسیل بالایی برای کاربرد، به‌ویژه در پردازش داده‌های صوتی و تحلیل کمی شاخص‌ها دارند.

در سال‌های اخیر، پیشرفت‌های چشمگیری در کاربرد یادگیری عمیق برای دسته‌بندی صوت حاصل شده است. شبکه‌های عصبی کانولوشنی (CNN) قابلیت استخراج ویژگی‌های قوی در طبقه‌بندی صوت را نشان داده‌اند. شبکه‌های ترکیبی کانولوشنی-بازگشتی (CRNN) دقت طبقه‌بندی را به طور قابل توجهی افزایش داده‌اند. مطالعات نشان داده‌اند که CNNها در دسته‌بندی ژانر موسیقی به دقتی مشابه انسان‌ها دست یافته‌اند و شبکه‌های CRNN توانستند آواز گروه کر را با دقت بالا دسته‌بندی کنند. این تحقیقات کاربرد یادگیری عمیق در پردازش داده‌های صوتی را گسترش داده‌اند، اما همه آن‌ها به مجموعه داده‌های برچسب‌دار زیاد نیاز دارند و هنگام برخورد با داده‌های صوتی نادر با نمونه‌های کم محدودیت دارند.

مجموعه داده‌های صوتی عمومی معمولاً انواع صوتی گسترده‌ای را پوشش می‌دهند اما نمایندگی کافی برای بخش‌های صوتی خاص بل‌کانتو، مانند مزوسوپرانو، ندارند. مجموعه داده‌های صوتی بزرگ مانند VGGSound و FSD50K منابع ارزشمندی برای مطالعات طبقه‌بندی صوت فراهم می‌کنند، اما داده کافی برای نمایش انواع صوتی نادر ارائه نمی‌دهند. مجموعه داده‌های حرفه‌ای موجود نیز در برچسب‌گذاری نکات مهم مانند گام، رنگ صدا و تکنیک یکسان نیستند، که استفاده از آن‌ها برای تحلیل کمی را ناکارآمد می‌کند.

کمبود داده کافی، استفاده از یادگیری عمیق در طبقه‌بندی صوت را به چالش کشیده است. در این شرایط، یادگیری انتقالی به عنوان راهکاری مؤثر مطرح می‌شود. یادگیری انتقالی روشی است برای انتقال یک مدل آموزش‌دیده برای یک وظیفه خاص به یک وظیفه هدف دیگر، تا ویژگی‌های معتبر برای وظیفه جدید استخراج شود، با استفاده از دانش پیشین وظیفه مبدا. در سال‌های اخیر، یادگیری انتقالی در یادگیری با نمونه‌های کم، پردازش تصویر و دسته‌بندی صوت به‌طور گسترده‌ای به کار رفته است.

برای حل مشکلات فوق، ابتدا مجموعه داده‌ی مزوسوپرانو (MVS) را ساختیم. سپس از مدل‌های پیش‌آموزش‌دیده روی مجموعه داده‌های عمومی مانند UrbanSound8K و ImageNet برای مقداردهی اولیه وزن‌های مدل یادگیری عمیق خود استفاده کردیم. در نهایت، مدل را برای تنظیم دقیق روی MVS منتقل کردیم، که یادگیری مؤثر ویژگی‌های تکنیک آواز مزوسوپرانو را امکان‌پذیر می‌کند. این روش نه تنها مشکل کمبود داده را کاهش می‌دهد، بلکه دقت ارزیابی تکنیک‌های آواز را به‌طور قابل توجهی افزایش می‌دهد.

مشارکت‌های اصلی این تحقیق عبارتند از:

1.ساخت مجموعه داده مزوسوپرانو برای ارزیابی صوتی بخش‌های نادر و برچسب‌گذاری دقیق 10 تکنیک حرفه‌ای آواز بر اساس معیار ارزیابی یکسان.

2.انتخاب سه مدل یادگیری عمیق مبتنی بر CNN برای ارزیابی صوت و بهبود عملکرد تعمیم آن‌ها از طریق یادگیری انتقالی مدل‌های پیش‌آموزش‌دیده. نتایج آزمایش‌ها نشان می‌دهد که روش ما دقت کلی تمام مدل‌ها را به طور متوسط 8.3٪ افزایش می‌دهد و بیشترین دقت به 94.2٪ می‌رسد.

3.ارائه راهکار مؤثر برای ارزیابی تکنیک‌های آواز مزوسوپرانو و ابزار آموزشی شخصی‌سازی‌شده و مؤثر برای مربیان آواز، که به هنرجویان امکان خودبازبینی و یادگیری فعال را می‌دهد.

۲. روش پیشنهادی

۲.۱ مجموعه داده‌های نوع صداهای کمیاب

برای مطالعه ارزیابی تکنیک‌های آوازی در صداهای نادر، ما مجموعه داده Mezzo-soprano Vocal Set (MVS) را ساختیم که تمرکز آن روی میزو-سوپرانو است. این مجموعه شامل ضبط‌های چند خواننده حرفه‌ای در آواز کلاسیک و همچنین دانشجویان رشته آواز در کنسرواتوار موسیقی است و شامل ۱۲۱۲ قطعه صوتی با کیفیت بالا از صدای میزو-سوپرانو می‌باشد. هر قطعه بین ۳ تا ۵ دقیقه طول دارد، با نرخ نمونه‌برداری ۴۸۰۰۰ هرتز و در قالب فایل WAV ذخیره شده است.

هدف MVS، شناسایی و ارزیابی ویژگی‌های تکنیکی کلیدی آواز میزو-سوپرانو، به ویژه در آموزش و تمرین آواز است. قطعات صوتی در MVS تحت ۱۰ تکنیک آوازی برچسب‌گذاری شده‌اند: ویبراتو، گلوی باز، موقعیت صدا، باز، تمیز، رزونانس، یکنواختی، فالسیتو، صدای سینه، و بینی. هر تکنیک بر اساس میزان اجرای صحیح آن روی مقیاس ۱ (بهترین) تا ۵ (ضعیف‌ترین) امتیازدهی شده است.

شرح مختصر هر تکنیک:

•ویبراتو (Vibrato): لرزش صدا که به حالت شل و گرد بودن عضلات و تنفس آزاد وابسته است. تنش عضلانی یا فشار زبان می‌تواند باعث ویبراتوی سریع یا کند یا صدای صاف بدون ویبراتو شود.

•گلو (Throat): نقش کلیدی در کنترل جریان هوا دارد؛ گلو باید به درستی موقعیت‌یابی شود تا انرژی کافی برای کنترل حجم و کیفیت صدا فراهم شود و پایداری صدا حفظ شود.

•موقعیت صدا (Position): تنظیم موقعیت گلو و محل تولید صدا برای ایجاد رزونانس و وضوح بهینه صدا.

•باز (Open): وضعیت گلو و سیستم تنفسی که اجازه می‌دهد صدا آزادانه در دهان و گلو لرزش و رزونانس داشته باشد.

•تمیز (Clean): پاکیزگی و وضوح صدا و تطابق دقیق با نت‌ها.

•رزونانس (Resonate): استفاده از حفره‌های بدن برای تقویت رنگ و حجم صدا؛ شامل حفره‌های دهانی، حلق، بینی، سر و سینه.

•یکنواختی (Unify): ثبات روش تولید صدا در بخش‌های بالا، وسط و پایین صدا و حفظ یکنواختی رنگ و حجم.

•فالسیتو (Falsetto): اثر صدای سبک و بالاتر از صدای طبیعی سینه با بافت نازک و شناور.

•صدای سینه (Chest): اثر لرزش کل تارهای صوتی، معروف به صدای کامل یا Chest Voice، که در کنترل بیان موسیقی و سلامت صدا اهمیت دارد.

•بینی (Nasal): صدای بینی یا Nasal که باعث کدر و نامفهوم شدن صدا و کاهش رزونانس می‌شود و کیفیت آواز را کاهش می‌دهد.

شکل ۳. تصویری از طیف‌نگارهای MFCC. (الف) طیف‌نگار صدای میزو-سوپرانو از مجموعه‌داده MVS و (ب) یک صدای شهری از مجموعه‌داده UrbanSound8K است.

۱. نویز پس‌زمینه

داده‌های صوتی در مجموعه‌ی UrbanSound8K شامل نویز پس‌زمینه‌ی زیاد، نامنظم و پراکنده هستند. در مقابل، مجموعه‌ی MVS چنین نیست و به‌طور کامل ریزموج‌های فرکانسی صدای انسان را حفظ کرده و میزان نویز بسیار کمتری دارد. این خلوص داده باعث می‌شود مدل بتواند تمرکز بیشتری روی یادگیری ویژگی‌های فرکانسی آواز داشته باشد. البته این نکته به این معنا نیست که آموزش اولیه مدل با UrbanSound8K هیچ کمکی به بهبود عملکرد تعمیم‌دهی مدل نمی‌کند. برعکس، ما در بخش آزمایش‌ها نشان می‌دهیم که نتیجه کاملاً مثبت است.

۲. تنوع محتوای صوتی

مجموعه‌ی UrbanSound8K شامل صداهای متنوعی از محیط‌های شهری است، مانند بوق خودرو و پارس سگ، که تنوع و بی‌نظمی زیادی در طیف ایجاد می‌کنند. در مقابل، مجموعه‌ی MVS از کلیپ‌های آواز حرفه‌ای تشکیل شده که ساختار صوتی منسجم‌تری دارند. طیف این داده‌ها ساختار هارمونیک پایدارتر و تغییرات زیر و بمی (Pitch) دقیق‌تری را نشان می‌دهد. بنابراین، هرچند مجموعه‌ی UrbanSound8K ویژگی‌های پایه‌ای غنی و مناسبی برای یادگیری انتقالی فراهم می‌کند، اما برای انطباق با ویژگی‌های خاص آواز، نیاز به تنظیم دقیق‌تر (Fine-tuning) وجود دارد.

۳. تخصصی بودن برچسب‌گذاری

در UrbanSound8K برچسب‌گذاری بیشتر برای تشخیص منابع صوتی و محدود به ۱۰ دسته صدای شهری است. اما در مجموعه‌ی MVS، ما ۱۰ تکنیک تخصصی آواز را نمره‌گذاری و برچسب‌گذاری کرده‌ایم. به همین دلیل، برچسب‌ها در MVS بسیار دقیق‌تر و تخصصی‌تر هستند. این ویژگی باعث می‌شود مدل بتواند در یادگیری خصوصیات موسیقایی سطح‌بالا و جزئیات تکنیکی، کارآمدتر عمل کند. نتایج ما نشان می‌دهد که استفاده از مجموعه‌داده‌های تخصصی در زمینه‌ی آواز، نقش مهمی در ارزیابی تکنیک‌های آوازی دارد.

۲.۲. ضریب کپسترال فرکانس مل (MFCC)

برای پیش‌پردازش فایل‌های صوتی، ابتدا آن‌ها را به ویژگی‌های MFCC تبدیل می‌کنیم. این ویژگی‌ها در حوزه‌هایی مثل بازشناسی گفتار، تحلیل احساسات، و شناسایی اثر صوتی (Voiceprint) کاربرد گسترده دارند. MFCC با شبیه‌سازی نحوه عملکرد گوش انسان، اطلاعات مهم صدایی را استخراج می‌کند. فرمول تبدیل فرکانس خطی به فرکانس مل به شکل زیر است:

mel(f) = 2595 \times \log_{10}(1 + \frac{f}{700})

که در آن f فرکانس خطی است.

مراحل پردازش MFCC:

1.فیلتر پیش‌تأکید (Pre-emphasis): برای تقویت انرژی بخش‌های فرکانسی بالا و جبران افت ناشی از کانال.

S’(n) = S(n) – \alpha S(n-1), \quad 0.9 \leq \alpha \leq 1

2.اعمال پنجره همینگ (Hamming Window): برای کاهش ناپیوستگی سیگنال در ابتدا و انتهای هر فریم.

w(n) = 0.54 – 0.46 \cos \left(\frac{2\pi n}{N-1}\right), \quad 0 \leq n \leq N-1

3.تبدیل فوریه سریع (FFT): تقسیم سیگنال به فریم‌های کوتاه‌مدت و تبدیل آن‌ها به طیف فرکانسی.

4.اعمال فیلتر مثلثی روی مقیاس مل: فیلترها در فرکانس‌های پایین متراکم‌تر و در فرکانس‌های بالا پراکنده‌تر قرار دارند. این کار منجر به استخراج طیف فرکانس مل می‌شود.

5.لگاریتم‌گیری: برای شبیه‌سازی درک لگاریتمی گوش انسان از شدت صدا.

6.تبدیل کسینوسی گسسته (DCT): برای تبدیل طیف مل لگاریتمی به ضرایب کپسترال (MFCC). این ضرایب در نهایت به‌عنوان ویژگی‌های ورودی مدل استفاده می‌شوند.

۲.۳. یادگیری انتقالی (Transfer Learning)

ما ابتدا مدل را روی یک مجموعه‌داده بزرگ پیش‌آموزش دادیم. این کار باعث می‌شود مدل ویژگی‌های عمومی و پایه‌ای را بیاموزد و تابع خطای آن به یک حداقل محلی مناسب همگرا شود:

\theta^* = \arg\min_\theta [\mathcal{L}(\theta)]

سپس، در مرحله‌ی تنظیم دقیق (Fine-tuning) روی مجموعه‌ی MVS، آموزش را نه از صفر، بلکه از وزن‌های به‌دست‌آمده \theta^* آغاز کردیم. تابع خطای جدید به شکل زیر تعریف می‌شود:

L_{new}(\theta^) = \sum_{i=1}^n l(f(x_i, \theta^), y_i)

این کار باعث می‌شود مدل به‌جای گرفتار شدن در جزئیات یک مجموعه‌ی کوچک، تعادلی بین توان تعمیم‌دهی و دقت روی داده‌های خاص برقرار کند. در نتیجه:

•کارایی مدل افزایش می‌یابد،

•از بیش‌برازش (Overfitting) جلوگیری می‌شود،

•و سرعت همگرایی در فرآیند بهینه‌سازی بیشتر می‌شود.

به بیان ساده، یادگیری انتقالی این امکان را فراهم می‌کند که دانش وسیع به‌دست‌آمده از داده‌های بزرگ، به‌طور مؤثر به مجموعه‌های کوچک‌تر مثل MVS منتقل شود.

۲.۲ مدل‌های یادگیری عمیق و آموزش انتقالی

برای ارزیابی تکنیک‌های آوازی، ما از سه مدل مبتنی بر شبکه‌های عصبی کانولوشنی (CNN) استفاده کردیم: CRNN، MobileNet v2 و CAM++. این مدل‌ها ابتدا روی داده‌های عمومی مانند ImageNet و UrbanSound8K آموزش دیده‌اند تا وزن‌های اولیه آن‌ها تعیین شود. سپس از یادگیری انتقالی (Transfer Learning) استفاده کردیم تا این مدل‌ها را روی مجموعه داده MVS برای فاین‌تیونینگ (Fine-tuning) آموزش دهیم. این روش باعث می‌شود مدل‌ها ویژگی‌های تکنیکی خاص صدای میزو-سوپرانو را به شکل مؤثرتری یاد بگیرند و دقت ارزیابی افزایش یابد.

مزایای این روش:

1.حل مشکل کمبود داده‌ها با استفاده از مدل‌های پیش‌آموزش‌دیده.

2.افزایش قابلیت تعمیم مدل‌ها و بهبود دقت کلی.

3.فراهم کردن یک ابزار آموزشی شخصی‌سازی شده برای مدرسان آواز و امکان بازخورد خودکار و یادگیری مستقل برای هنرجویان.

۳. نتایج تجربی

پس از آموزش مدل‌ها با یادگیری انتقالی روی مجموعه MVS، نتایج زیر به دست آمد:

•افزایش دقت کلی (OAcc) مدل‌ها به طور متوسط ۸.۳٪ بود.

•بالاترین دقت به ۹۴.۲٪ رسید.

•نمودارهای MFCC (Mel-Frequency Cepstral Coefficients) نشان دادند که داده‌های MVS به خوبی تفاوت‌های صدای میزو-سوپرانو را نسبت به داده‌های عمومی UrbanSound8K برجسته می‌کنند.

این نتایج نشان می‌دهد که یادگیری انتقالی یک راهکار مؤثر برای ارزیابی تکنیک‌های آوازی صداهای نادر است و می‌تواند به آموزش هدفمند و خودارزیابی هنرجویان کمک کند.

۴. نتایج (Results)

جدول ۱. دقت مدل‌های یادگیری عمیق در ارزیابی صوتی روی مجموعه داده MVS

دقت مدل‌های یادگیری عمیق در ارزیابی صدا روی مجموعه داده MVS

جدول ۱ نتایج ارزیابی صوتی سه مدل را نشان می‌دهد. به دلیل ساختار کارآمد MobileNet v2، این مدل در تمامی صحنه‌ها عملکرد بهتری نسبت به CRNN و CAM++ دارد. با مقایسه با پایه (بدون بارگذاری وزن‌های مدل‌های از پیش آموزش‌دیده)، تمامی مدل‌ها پس از پیش‌آموزش با مجموعه داده‌های اضافی (ImageNet یا Urbansound8k) ارتقا یافته‌اند. در بین این مدل‌ها، افزایش دقت پس از پیش‌آموزش روی مجموعه داده بزرگ تصویری ImageNet نسبتاً کوچک است (۰.۷٪ تا ۱.۹٪). در حالی که پیش‌آموزش روی مجموعه صوتی Urbansound 8k باعث بهبود قابل توجه دقت مدل‌ها می‌شود، با میانگین افزایش ۴.۳٪. به طور خاص، CRNN افزایش ۴.۹٪ را نشان می‌دهد.

نکته جالب این است که وقتی پیش‌آموزش با ترکیب Urbansound8k و ImageNet انجام شود، عملکرد تمام مدل‌ها به طور قابل توجهی افزایش می‌یابد. این امر به ویژه برای MobileNet v2 چشمگیر است که دقت ۹۴.۲٪، معادل بهبود ۹٪ نسبت به پایه را کسب کرده است. علاوه بر این، CAM++ نیز ۹٪ افزایش داشت. به طور خلاصه، تمامی مدل‌ها پس از انتقال یادگیری با وزن‌های پیش‌آموزش مجموعه داده اضافی، بهبود عملکرد قابل توجهی نشان دادند. این نشان‌دهنده سادگی و اثربخشی انتقال یادگیری برای ارزیابی صوتی در مجموعه داده MVS است.

جدول ۲. دقت پیش‌بینی نمرات برای ده تکنیک آواز توسط مدل‌های یادگیری عمیق روی مجموعه داده MVS

شرح نمرات برای ده تکنیک آواز توسط مدل‌های یادگیری عمیق — دقت نمره‌های سه مدل یادگیری عمیق برای ده دسته تکنیک در جدول ۲ نشان داده شده است. میانگین دقت همه دسته‌ها به‌عنوان OAcc نتایج پیش‌بینی در نظر گرفته می‌شود. از جدول می‌توان به‌طور مستقیم مشاهده کرد که یادگیری انتقالی برای پیش‌بینی دقیق نمره‌های تکنیک آواز mezzo-soprano حیاتی است.
برای تحلیل کیفی تغییرات ناشی از یادگیری انتقالی در عملکرد آموزش و تست مدل، ما مؤثرترین مدل، MobileNet v2، را به‌عنوان نمونه انتخاب کرده‌ایم. شکل ۴ شامل چهار زیر نمودار است که هر کدام تغییرات شاخص‌های عملکرد MobileNet v2 را در طول آموزش و تست قبل و بعد از یادگیری انتقالی نشان می‌دهد. به‌طور خاص، زیرنمودار ردیف اول نشان می‌دهد که مقادیر دقت و خطای مدل با تعداد epoch (تعداد دورهای آموزش) در طول آموزش چگونه تغییر می‌کند، در حالی که ردیف دوم روند تست را نشان می‌دهد.

شکل 4-منحنی خطا و دقت در طول فرآیند آموزش و آزمایش

با زوم روی منحنی‌های دقت تست در مقابل خطای تست (شکل ۵) می‌توان تغییرات عملکرد مدل ناشی از یادگیری انتقالی را تحلیل کرد. شکل ۵a نمودار منحنی خطای تست را نشان می‌دهد، با منحنی آبی به‌عنوان baseline. همانطور که در قاب‌های قرمز شکل ۵a و ۵b برجسته شده است، مدل پس از یادگیری وزن‌های پیش‌آموزش ImageNet به طور قابل توجهی سریع‌تر همگرا می‌شود، همان‌طور که توسط منحنی نارنجی نشان داده شده است.

با این حال، پس از یادگیری انتقالی وزن‌های پیش‌آموزش Urbansound8k (منحنی قرمز در شکل ۵a)، سرعت همگرایی مدل به‌طور قابل توجهی تغییر نکرد، هرچند خطا کاهش یافت. ما دریافتیم که آموزش مدل روی داده‌های دارای نویز زمینه‌ای برای بهبود مقاومت مدل مفید است. از آنجا که افزودن نویز یک روش استاندارد برای تقویت داده‌ها است، کارهای قبلی این ایده را پشتیبانی می‌کنند. بنابراین، تا حدودی یادگیری وزن‌های پیش‌آموزش Urbansound8k عملکرد مدل را بهبود می‌بخشد.

پس از ادغام دو وزن پیش‌آموزش برای یادگیری انتقالی، سرعت همگرایی به‌طور چشمگیری افزایش می‌یابد، همان‌طور که منحنی سبز در قاب آبی شکل ۵a نشان می‌دهد، که هموار و با کمترین خطا است. با افزایش تعداد آموزش‌ها، منحنی نارنجی مبتنی بر پیش‌آموزش ImageNet به تدریج بیش‌برازش می‌شود. در حالی که عملکرد تعمیم‌پذیری منحنی قرمز مبتنی بر Urbansound8k پایدار است. ما بر این باوریم که وزن‌های پیش‌آموزش ImageNet به مدل کمک می‌کند تا به سرعت با آموزش سازگار شود، اما عملکرد تعمیم‌پذیری مدل را بهبود نمی‌بخشد. بنابراین، در طول آموزش اضافی، عملکرد به تدریج کاهش یافته و overfitting رخ می‌دهد.

شکل ۵ منحنی تلفات و دقت در طول فرآیند آزمایش (الف) منحنی تلفات آزمایش و (ب) منحنی دقت آزمایش است

برای دقت تست، همان‌طور که در شکل ۵b با قاب نارنجی برجسته شده است، مدل پس از یادگیری انتقالی با مجموعه داده صوتی Urbansound8k کمی دقت خود را بهبود داد. با این حال، پس از ترکیب مجموعه داده تصویری ImageNet، بهبود عظیمی در دقت حاصل شد، همان‌طور که منحنی سبز نشان می‌دهد. همچنین، بالاترین دقت با یادگیری انتقالی روی ImageNet تغییر نکرد، همان‌طور که منحنی نارنجی نشان می‌دهد. ما نشان دادیم که یادگیری انتقالی مشترک وزن‌های پیش‌آموزش مجموعه داده‌های تصویری و صوتی می‌تواند عملکرد تعمیم مدل پیش‌بینی را به‌طور قابل توجهی بهبود بخشد. با این حال، توضیح تغییرات ویژگی‌ها در مدل قبل و بعد از یادگیری انتقالی همچنان چالش‌برانگیز است.

برای این منظور، ما از Grad-CAM برای بصری‌سازی نقشه فعال‌سازی کلاس وزن‌دار گرادیان (Grad-CAM) ویژگی‌ها در مدل یادگیری عمیق استفاده می‌کنیم تا اثر یادگیری ویژگی‌های MFCC قبل و بعد از یادگیری انتقالی را تحلیل کنیم.

شکل ۶ تجسم نگاشت فعال‌سازی کلاس با وزن گرادیان (Grad-CAM) برای ویژگی MFCC

ستون اول شکل ۶a ویژگی MFCC را به‌عنوان ورودی شبکه نشان می‌دهد، و ستون دوم و سوم نقشه فعال‌سازی کلاس وزن‌دار گرادیان (Grad-CAM) ویژگی ورودی را نشان می‌دهند. Grad-CAM به‌طور بصری به ما می‌گوید مدل در طول فرآیند یادگیری ویژگی‌ها روی کدام مناطق تمرکز دارد.

هنگامی که پیش‌آموزش انجام نشده است، مدل نسبت به توزیع منطقه‌ای ویژگی‌ها حساس نیست و هیچ منطقه روشن در شکل ۶b دیده نمی‌شود. پس از وارد کردن وزن‌های پیش‌آموزش ImageNet، مدل شروع به تمرکز روی توزیع منطقه‌ای ویژگی‌ها می‌کند، همان‌طور که توسط مناطق روشن در شکل ۶c نشان داده شده است، که شبکه روی مناطقی با توزیع انرژی بالاتر در اسپکتروگرام تمرکز می‌کند و سعی می‌کند ویژگی‌ها را در این مناطق یاد بگیرد، همانند یادگیری تشخیص مناطق اطراف اشیاء در تصویر. بنابراین، مدل پیش‌آموزش ImageNet می‌تواند به اسپکتروگرام‌های صوتی تعمیم یابد. با این حال، مناطق روشن پراکنده هستند و نمی‌توانند به‌طور دقیق روی ویژگی‌های صوتی تمرکز کنند (شکل ۶d). پس از پیش‌آموزش مدل با مجموعه داده Urbansound8k، مدل دید واضحی به دست آورد و ویژگی‌های صوتی با انرژی بالاتر و حساسیت کمتر را شناسایی کرد.

وضعیت پس از پیش‌آموزش مشترک با ImageNet و Urbansound8k تغییر کرد: مدل نسبت به مناطق هر ویژگی صوتی حساس شد (صرف‌نظر از سطح انرژی) و اطلاعات ویژگی‌های درشت و ریز را یاد گرفت (شکل ۶e).

از این آزمایش‌ها می‌توان به‌طور مستقیم دریافت که یادگیری انتقالی برای فرآیند یادگیری داده‌های صوتی با نمونه‌های کم ضروری است. این نتایج نشان می‌دهد که حتی با یادگیری بین دو دامنه متفاوت داده‌های تصویر و صدا، می‌توان عملکرد تعمیم شبکه را بهبود داد. علاوه بر این، اثر یادگیری انتقالی مشترک هر دو دامنه حتی قابل توجه‌تر است.

شکل ۷. مقایسه نتایج پیش‌بینی مدل.

بصری‌سازی نتایج پیش‌بینی برای سه مجموعه ارزیابی صوتی در شکل ۷ نشان داده شده است. هر مجموعه داده شامل یک نمودار هیستوگرام و نمودار رادار است. این نمودارها توزیع نمره‌های تکنیک را پس از روش‌های مختلف آموزش نشان می‌دهند. ستون اول (شکل ۷a) نتایج پیش‌بینی بدون پیش‌آموزش را نشان می‌دهد، ستون دوم (شکل ۷b) نتایج مدل با پیش‌آموزش مشترک ImageNet و Urbansound8k را نشان می‌دهد، و ستون آخر (شکل ۷c) برچسب‌ها را نشان می‌دهد.

با مقایسه نمودارهای ستون اول با ستون دوم، می‌توان مشاهده کرد که یادگیری انتقالی منجر به تغییر نمره‌ها در همه دسته‌ها شده است. اگر نتایج ستون دوم را با برچسب‌های ستون سوم مقایسه کنیم، می‌بینیم که مدل هر دسته را با دقت بیشتری پیش‌بینی می‌کند. این همچنین نشان می‌دهد که یادگیری انتقالی عملکرد تعمیم مدل را بهبود می‌بخشد.

شکل ۸. مقایسه ماتریس سردرگمی.

شکل ۸ چهار ماتریس سردرگمی مربوط به پیش‌بینی‌ها تحت شرایط مختلف آموزش مدل را نشان می‌دهد. هر ماتریس عملکرد مدل در ارزیابی را نشان می‌دهد و دقت ماتریس‌ها در بالای هر ماتریس نمایش داده شده است. پس از یادگیری انتقالی، دقت پیش‌بینی مدل به تدریج افزایش می‌یابد. به‌ویژه، ترکیب Urbansound8k و ImageNet منجر به دقت پیش‌بینی مدل تا ۹۴.۲٪ شد. سردرگمی بین نتایج ۲-نقطه‌ای و ۳-نقطه‌ای در مدل پایه بیشترین میزان را دارد، که به‌تدریج پس از پیش‌آموزش کاهش می‌یابد.

با تحلیل این چهار ماتریس سردرگمی، می‌توان نتیجه گرفت که پیش‌آموزش می‌تواند عملکرد امتیازدهی مدل‌های یادگیری عمیق را به‌طور قابل توجهی بهبود بخشد. استراتژی پیش‌آموزش ترکیبی (استفاده از ImageNet و Urbansound8k) دقت را افزایش داده و باعث می‌شود مدل در شرایط مختلف بهتر عمل کند.

⸻

۵. بحث

۱. تأثیر یادگیری انتقالی مجموعه داده تصویری روی مدل‌ها:

مدل پیش‌آموزش ImageNet را می‌توان به‌عنوان یک آشکارساز بافت عالی در نظر گرفت که می‌تواند به‌طور مؤثر به اسپکتروگرام‌های MFCC تعمیم یابد، همانطور که در Grad-CAM (شکل ۶) دیده می‌شود، که نسبت به موجی بودن انرژی صوت حساس است و با تشخیص بافت صوتی به‌طور تطبیقی به مدل کمک می‌کند تا ویژگی‌های صوتی را سریع شناسایی کند، همانطور که در منحنی تست (شکل ۵) مشاهده شد.

۲. تأثیر یادگیری انتقالی مجموعه داده صوتی روی مدل‌ها:

تنوع صداهای محیطی در مجموعه داده UrbanSound8K و داده‌های آوازی در MVS ما، باعث می‌شود مدل راحت‌تر ویژگی‌های مشترک صداها را کشف کند، حتی اگر محتوا متفاوت باشد. نویز پس‌زمینه تا حدی مقاومت مدل را بهبود می‌بخشد.

۳. تأثیر یادگیری انتقالی مشترک روی مدل‌ها:

ما معتقدیم یادگیری انتقالی مشترک یک فرآیند ساده “۱+۱=۲” نیست، بلکه یک فرآیند تطبیق ویژگی چندرسانه‌ای است. مدل ویژگی‌های مختلف صوت را یاد می‌گیرد. ما آزمایش‌های گسترده‌ای انجام خواهیم داد و اصول و کاربردهای آن را در زمینه چندرسانه‌ای در تحقیقات آینده عمیقاً بررسی خواهیم کرد.

۴. کارهای آینده و بهبودها:

در آینده، هدف اول ما افزایش اندازه و حجم مجموعه داده برای آموزش مقاوم و جمع‌آوری مواد صوتی بسیار گسترده‌تر است. سپس کیفیت برچسب‌ها را بهبود خواهیم داد و توزیع نمره را دقیق‌تر خواهیم کرد. ما به دنبال به‌روز ماندن با روش‌های پیشرفته یادگیری انتقالی و استفاده از مدل‌های مقاوم‌تر برای بهبود کیفیت ارزیابی صوتی در تحقیقات بعدی خواهیم بود. همزمان، قصد داریم سناریوهای کاربردی ارزیابی تکنیک آواز را با افزودن ابعاد احساسی موسیقی گسترش دهیم، زیرا موسیقی دارای اطلاعات چندبعدی غنی است و Bel canto یک تجسم هنری ترکیب موسیقی و احساس است.

⸻

۶. نتیجه‌گیری

در این مقاله، مجموعه داده آوازی Mezzo-soprano Vocal Set (MVS) را برای کمی‌سازی و ارزیابی تکنیک‌های آواز با استفاده از یادگیری عمیق ایجاد کردیم. همزمان، مدل‌ها را روی مجموعه داده‌های ImageNet و Urbansound8k پیش‌آموزش دادیم تا مشکلات دقت پایین پیش‌بینی و عملکرد تعمیم ضعیف مدل‌های ارزیابی ناشی از کمبود نمونه‌های داده را رفع کنیم. نتایج تجربی ما نشان می‌دهد که پس از یادگیری انتقالی، OAcc همه مدل‌ها به طور متوسط ۸.۳٪ افزایش یافته است، و بالاترین مدل به دقت ۹۴.۲٪ رسید. برای mezzo-soprano که نوع صدای کمیاب است، کار ما نه تنها روش علمی برای ارزیابی تکنیک آواز ارائه می‌دهد، بلکه ابزار مؤثرتری برای آموزش شخصی‌سازی‌شده و مؤثر به مربیان فراهم می‌کند.

Zhenyi Hou1*, Xu Zhao1*, Kejie Ye1, Xinyu Sheng1, Shanggerile Jiang1, Jiajing Xia1

Yitao Zhang1, Chenxi Ban1, Daijun Luo1, Jiaxing Chen1, Yan Zou3

Yuchao Feng2, Guangyu Fan1, Xin Yuan2

1.دانشگاه علوم و فناوری شانگهای ، چین

2.دانشگاه وستلیک، هانگژو ، چین

3.کنسرواتوار موسیقی شانگهای ، چین

*این نویسندگان به صورت برابر مشارکت داشته‌اند.

\(\∮\) ایمیل نویسنده مسئول. ایمیل:

batohou@hotmail.com

fengyuchao@wioe.westlake.edu.cn

xyuan@westlake.edu.cn

Reference：
1. Chua, S. L. & Welch, G. F. A quantitative study of experiences impacting music teacher
development. Psychol. Music 49, 445–461 (2021).
2. Cardoso, N. S. V., Lucena, J. A. & Gomes, A. D. O. C. Immediate Effect of a Resonance Tube
on the Vocal Range Profile of Choristers. J. Voice 34, 667–674 (2020).
3. DeMarco, L. E. The Fact of the Castrato and the Myth of the Countertenor. Music. Q. 86, 174
185 (2002).
4. Sataloff, R. T. Anatomy and Physiology of the Voice. in Dentofacial Anomalies: Implications
for Voice and Wind Instrument Performance (eds. Hamdan, A. L., Sataloff, R. T., Trollinger, V.
& Hawkshaw, M. J.) 3–13 (Springer International Publishing, Cham, 2021).
5. Mayr, A. Investigating the Voce Faringea: Physiological and Acoustic Characteristics of the
Bel Canto Tenor’s Forgotten Singing Practice. J. Voice 31, 255.e13-255.e23 (2017).
6. Esling, J. H. Pharyngeal consonants and the aryepiglottic sphincter. J. Int. Phon. Assoc. 26, 65
88 (1996).
7. Wang, X. & Wang, T. Voice Recognition and Evaluation of Vocal Music Based on Neural
Network. Comput. Intell. Neurosci. 2022, 3466987 (2022).
8. Diwakar, M. P. & Gupta, B. VGGish Deep Learning Model: Audio Feature Extraction and
Analysis. in Data Management, Analytics and Innovation (eds. Sharma, N., Goje, A. C.,
Chakrabarti, A. & Bruckstein, A. M.) 59–70 (Springer Nature, Singapore, 2024).
9. Chakravarty, S., Khandelwal, R. R. & Dhote, K. M. Feature Extraction Techniques for Deep
Learning based Speech Classification. in 2023 14th International Conference on Computing
Communication and Networking Technologies (ICCCNT) 1–6 (2023).
10. Dong, M. Convolutional Neural Network Achieves Human-level Accuracy in Music Genre
Classification. Preprint at http://arxiv.org/abs/1802.09697 (2018).
11. Choi, K., Fazekas, G., Sandler, M. & Cho, K. Convolutional recurrent neural networks for
music classification. in 2017 IEEE International Conference on Acoustics, Speech and Signal
Processing (ICASSP) 2392–2396 (2017).
12. Zhang, W., Lei, W., Xu, X. & Xing, X. Improved Music Genre Classification with
Convolutional Neural Networks. in Interspeech 2016 3304–3308 (ISCA, 2016).
13. Stefanus & Lestari, D. P. Classification of Vocal Type in Choir Using Convolutional Recurrent
Neural Network (CRNN). in 2023 10th International Conference on Advanced Informatics:
Concept, Theory and Application (ICAICTA) 1–6 (IEEE, Lombok, Indonesia, 2023).
14. Demir, F., Abdullah, D. A. & Sengur, A. A New Deep CNN Model for Environmental Sound
Classification. IEEE Access 8, 66529–66537 (2020).
15. Guzhov, A., Raue, F., Hees, J. & Dengel, A. ESResNet: Environmental Sound Classification
Based on Visual Domain Models. in 2020 25th International Conference on Pattern
Recognition (ICPR) 4933–4940 (2021).
16. Gemmeke, J. F. et al. Audio Set: An ontology and human-labeled dataset for audio events. in
2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
776–780 (IEEE, New Orleans, LA, 2017).
17. Homburg, H., Mierswa, I., Möller, B., Morik, K. & Wurst, M. A Benchmark Dataset for Audio
Classification and Clustering. in ISMIR vol. 2005 528–31 (2005).
18. Fonseca, E., Favory, X., Pons, J., Font, F. & Serra, X. FSD50K: An Open Dataset of Human
Labeled Sound Events. IEEEACM Trans. Audio Speech Lang. Process. 30, 829–852 (2022).
19. Piczak, K. J. ESC: Dataset for environmental sound classification. in Proceedings of the 23rd
ACM international conference on Multimedia 1015–1018 (ACM, Brisbane Australia, 2015).
20. Chen, H., Xie, W., Vedaldi, A. & Zisserman, A. Vggsound: A Large-Scale Audio-Visual Dataset.
in ICASSP 2020 – 2020 IEEE International Conference on Acoustics, Speech and Signal
Processing (ICASSP) 721–725 (IEEE, Barcelona, Spain, 2020).
21. Brandner, M., Bereuter, P. A., Kadiri, S. R. & Sontacchi, A. Classification of Phonation Modes
in Classical Singing Using Modulation Power Spectral Features. IEEE Access 11, 29149–29161
(2023).
22. Iqbal, T., Cao, Y., Kong, Q., Plumbley, M. D. & Wang, W. Learning with out-of-distribution
data for audio classification. in ICASSP 2020 – 2020 IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP) 636–640 (IEEE, Barcelona, Spain, 2020).
23. Ghani, B., Denton, T., Kahl, S. & Klinck, H. Global birdsong embeddings enable superior
transfer learning for bioacoustic classification. Sci. Rep. 13, 22876 (2023).
24. Heggan, C., Budgett, S., Hospedales, T. & Yaghoobi, M. MetaAudio: A Few-Shot Audio
Classification Benchmark. in Artificial Neural Networks and Machine Learning – ICANN 2022
(eds. Pimenidis, E., Angelov, P., Jayne, C., Papaleonidas, A. & Aydin, M.) vol. 13529 219–230
(Springer International Publishing, Cham, 2022).
25. Wang, Y., Bryan, N. J., Cartwright, M., Pablo Bello, J. & Salamon, J. Few-shot continual
learning for audio classification. in ICASSP 2021 – 2021 IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP) 321–325 (IEEE, Toronto, ON, Canada,
2021).
26. Pan, S. J. & Yang, Q. A Survey on Transfer Learning. IEEE Trans. Knowl. Data Eng. 22, 1345
1359 (2010).
27. Pratama, K. B., Suyanto, S. & Rachmawati, E. Human Vocal Type Classification using MFCC
and Convolutional Neural Network. in 2021 International Conference on Communication &
Information Technology (ICICT) 43–48 (IEEE, Basrah, Iraq, 2021).
28. Badrinarayanan, V., Kendall, A. & Cipolla, R. SegNet: A Deep Convolutional Encoder-Decoder
Architecture for Image Segmentation. IEEE Trans. Pattern Anal. Mach. Intell. 39, 2481–2495
(2017).
29. Iglovikov, V. & Shvets, A. TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet
for Image Segmentation. Preprint at http://arxiv.org/abs/1801.05746 (2018).
30. Majkowska, A. et al. Chest Radiograph Interpretation with Deep Learning Models: Assessment
with Radiologist-adjudicated Reference Standards and Population-adjusted Evaluation.
Radiology 294, 421–431 (2020).
31. Gulshan, V. et al. Development and Validation of a Deep Learning Algorithm for Detection of
Diabetic Retinopathy in Retinal Fundus Photographs. JAMA 316, 2402–2410 (2016).
32. Salamon, J., Jacoby, C. & Bello, J. P. A Dataset and Taxonomy for Urban Sound Research. in
Proceedings of the 22nd ACM international conference on Multimedia 1041–1044 (Association
for Computing Machinery, New York, NY, USA, 2014).
33. Deng, J. et al. ImageNet: A Large-Scale Hierarchical Image Database. in 2009 IEEE
Conference on Computer Vision and Pattern Recognition 248–255 (2009).
34. Gwardys, G. & Grzywczak, D. Deep Image Features in Music Information Retrieval. Int. J.
Electron. Telecommun. Vol. 60, No. 4, 321–326 (2014).
35. Sang, J., Park, S. & Lee, J. Convolutional Recurrent Neural Networks for Urban Sound
Classification Using Raw Waveforms. in 2018 26th European Signal Processing Conference
(EUSIPCO) 2444–2448 (IEEE, Rome, 2018).
36. Sandler, M., Howard, A., Zhu, M., Zhmoginov, A. & Chen, L.-C. MobileNetV2: Inverted
Residuals and Linear Bottlenecks. in 4510–4520 (2018).
37. Wang, H., Zheng, S., Chen, Y., Cheng, L. & Chen, Q. CAM++: A Fast and Efficient Network
for Speaker Verification Using Context-Aware Masking. Preprint at (2023).
38. Kadiri, S. R., Alku, P. & Yegnanarayana, B. Analysis and classification of phonation types in
speech and singing voice. Speech Commun. 118, 33–47 (2020).
39. Chen, C. H. Pattern Recognition and Artificial Intelligence. (Elsevier, 2013).
40. Davis, S. & Mermelstein, P. Comparison of parametric representations for monosyllabic word
recognition in continuously spoken sentences. IEEE Trans. Acoust. Speech Signal Process. 28,
357–366 (1980).
41. Cappellazzo, U., Falavigna, D., Brutti, A. & Ravanelli, M. Parameter-Efficient Transfer
Learning of Audio Spectrogram Transformers. Preprint at http://arxiv.org/abs/2312.03694
(2024).
42. Paszke, A. et al. PyTorch: An Imperative Style, High-Performance Deep Learning Library. in
Advances in Neural Information Processing Systems vol. 32 (Curran Associates, Inc., 2019).
43. Krizhevsky, A., Sutskever, I. & Hinton, G. E. ImageNet Classification with Deep Convolutional
Neural Networks. in Advances in Neural Information Processing Systems vol. 25 (Curran
Associates, Inc., 2012).
44. Palanisamy, K., Singhania, D. & Yao, A. Rethinking CNN Models for Audio Classification.
Preprint at https://doi.org/10.48550/arXiv.2007.11154 (2020).
45. Selvaraju, R. R. et al. Grad-CAM: Visual Explanations from Deep Networks via Gradient
based Localization. in 618–626 (2017).

مترجم : محمدرضا داودی

0 0 رای

امتیاز مقاله

اشتراک

0 نظرات

قدیمی ترین

جدیدترین بیشترین رای

بازخورد درون خطی

مشاهده همه نظرات