طراحی یک روش آموزش ناموازی جدید برای تبدیل گفتار با عملکردی بهتر از آموزش موازی

قرباندوست, مصطفی; صبا, ولی اله

علوم پیراپزشکی و بهداشت نظامی

چهارشنبه 20 خرداد 1405 | English [Archive]

Paramedical Sciences and Military Health

دوره 10، شماره 2 - ( علوم پیراپزشکی و بهداشت نظامی (پاییز 1394) 1394 ) جلد 10 شماره 2 صفحات 16-6 | برگشت به فهرست نسخه ها

Mendeley

Zotero

RefWorks

Ghorbandoost M, Saba V. Designing a New Non-parallel Training Method to Voice Conversion with Better Performance than Parallel Training. Paramedical Sciences and Military Health 2015; 10 (2) :6-16
URL: http://jps.ajaums.ac.ir/article-1-52-fa.html

قرباندوست مصطفی، صبا ولی اله. طراحی یک روش آموزش ناموازی جدید برای تبدیل گفتار با عملکردی بهتر از آموزش موازی. علوم پیراپزشکی و بهداشت نظامی. 1394; 10 (2) :6-16

URL: http://jps.ajaums.ac.ir/article-1-52-fa.html

طراحی یک روش آموزش ناموازی جدید برای تبدیل گفتار با عملکردی بهتر از آموزش موازی

مصطفی قرباندوست¹

، ولی اله صبا^*²

1- دانشگاه علوم پزشکی آجا
2- دانشگاه علوم پزشکی آجا ، vsaba@aut.aut.ac.ir

چکیده: (7360 مشاهده)

مقدمه: هنر تقلید صدای انسان با کامپیوتر، یکی از چالشی ترین موضوعات پردازش گفتار در سال های اخیر بوده است. یک سیستم تبدیل گفتار دارای دو سمت است. در یک سمت آن، گوینده مبدا قرار دارد که صدایش برای تقلید صدای گوینده هدف (که در سمت دیگر سیستم قرار دارد) تغییر داده می شود. برای تبدیل گفتار فرد مبدا به فرد هدف از دو روش موازی و ناموازی استفاده می شود. در روش موازی گوینده مبدا و هدف جملات یکسانی بیان کرده و در روش ناموازی جملات متفاوتی بیان می کنند. بیشتر محققین تبدیل گفتار برای آموزش تابع تبدیل از دادگان آموزشی موازی استفاده کرده اند. با این حال، در عمل همیشه امکان جمع آوری دادگان موازی وجود ندارد و بنابراین نیاز استفاده از روش های ناموازی به وجود می آید.

مواد و روش ها: گفتار گوینده مبدا و هدف ضبط شده و سپس مورد آنالیز قرار گرفت. با پردازش سیگنال، ویژگی های گفتار هر دو نفر استخراج شد. سپس عمل هم ردیف سازی انجام شده و تابع تبدیل گفتار بدست آمد. برای تبدیل گفتار مبدا به هدف، گفتار مبدا آنالیز شده و سپس عمل استخراج ویژگی انجام شد. تابع نبدیل گفتار بدست آمده از قسمت قبل، بر ویژگیهای استخراج شده اعمال شد. سپس عمل معکوس استخراج ویژگی انجام شده و در پایان سنتز گفتار صورت گرفت. صدای سنتز شده، صدای فرد هدف می باشد.

یافته ها: نتایج آزمایش های عددی و عینی مشخص کرد که روش پیشنهادی ما از روش آموزش موازی بهتر است. همچنین در آزمایش ها مشاهده شد که این برتری هم از لحاظ کیفیت و هم از لحاظ شباهت به گوینده ی هدف، برای اندازه های مختلف دادگان آموزشی از پنج تا چهل جمله صادق است.

بحث و نتیجه گیری: به نظر می رسد که روش پیشنهادی ما یک رقیب جدی برای روش های آموزش موازی برای همردیف سازی فریم است.

واژه‌های کلیدی: تبدیل گفتار، آنالیز و سنتز صدا، سیستم های آموزش ناموازی، الگوریتم INCA، مدل مخلوط گاوسی، مدل پس زمینه سراسری، تبدیل گفتار بلادرنگ

متن کامل [PDF 1579 kb] (3986 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: چکیده مقالات
دریافت: 1394/6/28 | پذیرش: 1394/9/22 | انتشار: 1394/9/30

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این وب سایت متعلق به علوم پیراپزشکی و بهداشت نظامی می باشد.

علوم پیراپزشکی و بهداشت نظامی

پایگاه های مرتبط

کلمات کلیدی