طراحی یک روش آموزش ناموازی جدید برای تبدیل گفتار با عملکردی بهتر از آموزش موازی

قرباندوست, مصطفی; صبا, ولی اله

دوره 10، شماره 2 - ( علوم پیراپزشکی و بهداشت نظامی (پاییز 1394) 1394 ) جلد 10 شماره 2 صفحات 16-6 | برگشت به فهرست نسخه ها

طراحی یک روش آموزش ناموازی جدید برای تبدیل گفتار با عملکردی بهتر از آموزش موازی

مصطفی قرباندوست¹

، ولی اله صبا^*²

1- دانشگاه علوم پزشکی آجا
2- دانشگاه علوم پزشکی آجا ، vsaba@aut.aut.ac.ir

چکیده: (6242 مشاهده)

مقدمه: هنر تقلید صدای انسان با کامپیوتر، یکی از چالشی ترین موضوعات پردازش گفتار در سال های اخیر بوده است. یک سیستم تبدیل گفتار دارای دو سمت است. در یک سمت آن، گوینده مبدا قرار دارد که صدایش برای تقلید صدای گوینده هدف (که در سمت دیگر سیستم قرار دارد) تغییر داده می شود. برای تبدیل گفتار فرد مبدا به فرد هدف از دو روش موازی و ناموازی استفاده می شود. در روش موازی گوینده مبدا و هدف جملات یکسانی بیان کرده و در روش ناموازی جملات متفاوتی بیان می کنند. بیشتر محققین تبدیل گفتار برای آموزش تابع تبدیل از دادگان آموزشی موازی استفاده کرده اند. با این حال، در عمل همیشه امکان جمع آوری دادگان موازی وجود ندارد و بنابراین نیاز استفاده از روش های ناموازی به وجود می آید.

مواد و روش ها: گفتار گوینده مبدا و هدف ضبط شده و سپس مورد آنالیز قرار گرفت. با پردازش سیگنال، ویژگی های گفتار هر دو نفر استخراج شد. سپس عمل هم ردیف سازی انجام شده و تابع تبدیل گفتار بدست آمد. برای تبدیل گفتار مبدا به هدف، گفتار مبدا آنالیز شده و سپس عمل استخراج ویژگی انجام شد. تابع نبدیل گفتار بدست آمده از قسمت قبل، بر ویژگیهای استخراج شده اعمال شد. سپس عمل معکوس استخراج ویژگی انجام شده و در پایان سنتز گفتار صورت گرفت. صدای سنتز شده، صدای فرد هدف می باشد.

یافته ها: نتایج آزمایش های عددی و عینی مشخص کرد که روش پیشنهادی ما از روش آموزش موازی بهتر است. همچنین در آزمایش ها مشاهده شد که این برتری هم از لحاظ کیفیت و هم از لحاظ شباهت به گوینده ی هدف، برای اندازه های مختلف دادگان آموزشی از پنج تا چهل جمله صادق است.

بحث و نتیجه گیری: به نظر می رسد که روش پیشنهادی ما یک رقیب جدی برای روش های آموزش موازی برای همردیف سازی فریم است.

واژه‌های کلیدی: تبدیل گفتار، آنالیز و سنتز صدا، سیستم های آموزش ناموازی، الگوریتم INCA، مدل مخلوط گاوسی، مدل پس زمینه سراسری، تبدیل گفتار بلادرنگ

متن کامل [PDF 1579 kb] (3617 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: چکیده مقالات
دریافت: 1394/6/28 | پذیرش: 1394/9/22 | انتشار: 1394/9/30

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.