پايان نامه بهسازي سيگنال گفتار در حوزه زمان-فرکانس

تحقیق و پروژه و پایان نامه و مقاله دانشجویی

پايان نامه بهسازي سيگنال گفتار در حوزه زمان-فرکانس یکی از پایان نامه و تحقیق های جامع و کامل و دارای منابع معتبر می باشد این پایان نامه دارای 118 صفحه به صورت فایل ورد و قابل ویرایش می باشد که جهت دریافت و دانلود متن کامل پايان نامه بهسازي سيگنال گفتار در حوزه زمان-فرکانس بر روی گزینه خرید انتهای ایمیل کلیک نمائید پس از وارد نمودن اطلاعات مربوطه و پرداخت قادر به دانلود متن کامل پایان نامه مربوطه می باشد همچنین لینک پایان نامه همان لحظه به ایمیل شما ارسال می گردد.

فهرست مطالب

تقدیر و تشکر    ث‌
چکیده    ح‌
فهرست شکل ها    س‌
فهرست جدول ها    ص‌
فصل اول:    1
مقـــــدمه    1
1-1 پیشگفتار    1
1-2 بهسازی گفتار نویزی:اهداف،کاربردها،مفاهیم    2
1-3 تعریف مسئله و تقسیم بندی روش ها    3
1-4 نوآوری تحقیق    4
1-5  ساختار پایانامه    4
فصل دوم    5
پیش زمینه های پردازش سیگنال گفتار    5
2-1     نحوه توليد گفتار در انسان    5
2-2   معرفی نويز و انواع آن    10
2-2-1  نويز سفيد    13
2-2-2   نويز صورتي    13
2-2-3 نويز قهوهاي    14
2-2-4   نويز صنعتي    14
2-3 تحلیل زمان- فرکانسی سیگنال گفتار    15
2-3-1 تبدیل فوریه    15
2-3-2 تبديل فوريه زمان-كوتاه    17
2-3-3 آناليز چند دقت زمان فرکانسی    20
2-3-4 تبديل موجک يك بعدي    20
2-3-4-1  تبديل موجک پيوسته    20
2-3-4-1-1  دقت های  زمانی و  فركانسی    22
2-3-4-1-2  روابط رياضي تبديل موجک:    22
2-3-4-1-3  عكس تبديل موجک:    24
2-3-4-2 تبدیل موجک گسسته    24
2-4 الگوریتم بهینه سازی ژنتیک    28
2-4-1 درباره علم ژنتیک    28
2-4-2  تاریخچۀ علم ژنتیک    29
2-4-3 تکامل طبیعی (قانون انتخاب طبیعی داروین)و رابطه آن با روش های هوش مصنوعی    29
2-4-4  الگوریتم ژنتیک    32
2-4-5  مكانيزم الگوريتم ژنتيك    34
2-4-6  عملگرههاي الگوريتم ژنتيك    37
2-4-6-1  کدگذاری    37
2-4-6-2 ارزیابی    37
2-4-6-3 ترکیب    37
2-4-6-4 جهش    37
2-4-6-5 رمزگشايي    38
2-4-7  چارت الگوريتم به همراه شبه كد آن    38
2-4-7-1  شبه كد و توضيح آن    38
2-4-7-2 چارت الگوریتم ژنتیک    40
2-4-8 تابع هدف    41
2-4-9 روشهای کد کردن    41
2-4-9-1  کدینگ باینری    42
2-4-9-2 کدینگ جایگشتی    42
2-4-9-3  کد گذاری مقدار    43
2-4-9-4 کدینگ درخت    44
2-4-10  نمایش رشته‌ها    45
2-4-11 جمعيت    46
2-4-11-1  ايجادجمعيت اوليه    46
2-4-11-2 اندازه جمعيت    46
2-4-12  محاسبه برازندگي (تابع ارزش)    47
2-4-13  انواع روشهای انتخاب    48
2-4-13-1  انتخاب چرخ رولت    49
2-4-13-2 انتخاب حالت پایدار    51
2-4-13-3  انتخاب نخبه گرایی    51
2-4-13-4  انتخاب رقابتی    51
2-4-13-5 انتخاب قطع سر    52
2-4-13-6  انتخاب قطعی بریندل    52
2-4-13-7  انتخاب جایگزینی نسلی اصلاح شده    53
2-4-13-8  انتخاب مسابقه    53
2-4-13-9  انتخاب مسابقه تصادفی    53
2-4-14  انواع روشهای ترکیب    53
2-4-14-1  جابه‌جایی دودوئی    54
2-4-14-2  جابه‌جایي حقيقي    56
2-4-14-3 ترکیب تک‌نقطه‌ای    57
2-4-14-4  ترکیب دو نقطه‌ای    58
2-4-14-5  ترکیب n نقطه‌ای    58
2-4-14-6 ترکیب یکنواخت    58
2-4-14-7  ترکیب حسابی    59
2-4-14-8  ترتیب    59
2-4-14-9  چرخه    60
2-4-15 احتمال تركيب    60
2-4-16  تحليل مكانيزم جابجایي    61
2-4-17 جهش    61
2-4-17-1 جهش باينري    63
2-4-17-2  جهش حقيقي    64
2-4-17-3  وارونه سازی بیت    64
2-4-17-4  تغییر ترتیب قرارگیری    64
2-4-17-5 وارون سازی    64
2-4-17-6  تغییر مقدار    65
2-4-18  محک اختتام اجرای الگوریتم ژنتیک    65
2-4-19 نقاط قوّت الگوریتمهای ژنتیک    66
2-4-20  محدودیتهای GAها    68
2-5 آنالیز ضرایب پیشگویی خطی  (LPC)    69
2-5-1 محاسبه ضرایب LPC    70
فصل سوم    73
مروری برروش های عمده بهسازی گفتار    73
3-1 مقدمه    73
3-2  روش تفریق طیفی    74
3-3 روش فیلتر وینر    76
3-4  بهسازی گفتار با استفاده از مدل های آماری    78
3-4-1  تخمین زننده لگاریتمی بر مبنای كمينه كردن خطاي ميانگين مربعات(Log MMSE)    78
3-4-2  استفاده از مدل مخفی مارکف(HMM) برای بهسازی گفتار    80
3-5 روش زیر فضای سیگنال    82
3-6  بهسازی گفتار با استفاده از تبدیل موجک    83
3-7  مقایسه روش ها و بررسی نقاط قوت  و ضعف    85
3-7-1  بررسی های مقایسه ای انجام شده بین برخی از روش های بهینه سازی گفتار    86
2-3-2  چکیده ای ازویژگی ها ونقاط قوت و ضعف روش های مختلف    87
3-8 نکات و ملاحظاتی مهم درطراحی سیستم بهسازی گفتار    89
3-8-1  استفاده از سیستم های ترکیبی    89
3-8-2  استفاده از پردازش های زیر باند و مزایای آن    89
3-8-3  استفاده از میکروفون دوم    90
فصل چهارم :  روش های پیشنهادی    92
4-1 مقدمه    92
4-2 روش های پیشنهادی    93
4-2-1  بهسازی سیگنال های صوتی با استفاده از الگوریتم ژنتیک و آنالیز LPC در روش تفریق موجک    93
4-2-1-1  روش تفریق طیفی  ضرایب موجک (WSS)    94
4-2-1-2 اصلاح روش تفريق طيفي ضرايب موجك  (IWSS)    95
4-2-1-3 تخمين نويز    96
4-2-1-4 الگوریتم ژنتیک    97
4-2-1-4-1   عملگر انتخاب    97
4-2-1-4-2 عملگر برش    98
4-2-1-4-3  عملگر جهش    98
4-2-1-4-4 جمعيت اوليه    98
4-2-1-4-5 تابع هدف    98
4-2-2 بهسازی سیگنال های صوتی با استفاده از روش میانگین خطای مربعات در فضای موجک    98
4-2-2-1 تخمین زننده Log MMSE   در فضای موجک    99
4-2-2-2 تخمین نویز    100
فصل پنجم:  نتایج و آزمایش ها    101
5-1 مقدمه    101
5-2 جزئیات پیاده سازی    102
5-3 نتایج  بهسازی سیگنال های صوتی با استفاده از الگوریتم ژنتیک و آنالیز LPC در روش تفریق موجک    103
5-4 نتایج بهسازی سیگنال های صوتی با استفاده از روش میانگین خطای مربعات در فضای موجک    106
فصل  ششم:  نتیجه گیری و پیشنهادها    109
6-1  نتیجه گیری    109
6-2 پیشنهاد برای کارهای آتی    111
مراجع    112

مراجع

[1] P.C. Loizou, Speech Enhancement: Theory and Practice, CRC Press,Boca Raton, FL, 2007.section 3, p 46

[2] Borden, G., Harris, K., and Raphael, L. , Speech science Primier, 3rd ed., Baltimore, MID: Williams and Wilkins.

[3] Rosenberg, A., Effect of glottal  pulse shape on the quality of natural vowels, J. Acoust. Soc. Am., 49(2), 583-588 (1971).

[4] S. G. Mallat, “A Theory for Multiresolution Signal Decomposition: The Wavelet Representation,” IEEE Transactions on Pattern Analysis Machine Intelligence, July 1989.

[5] ا. صیادی, “آشنايي مقدماتي با تبديل ويولت ,” دانشكده مهندسي برق، دانشگاه صنعتي شريف, اسفند87.

[6] C. S. Burrus, R. A. Gopinath and H. Guo, Introduction to Wavelets and the Wavelet Transforms: A Primer. Upper Saddle River, Prentice Hall, Inc., 1998.

[9] 1387 انتشارت عابد، تهران، ، “الگوریتم‌های‌ژنتیک و بهینه‌سازی سازه‌های مرکب”،باوری ا ، صالحی م.

[11] ، روزنامه جام‌جم- ضمیمه کلیک- شماره 209، تهران، “جستاری بر الگوریتم‌‌ژنتیک”، شاهمیری ا 1387

[12] “آموزش کاربردی الگوریتم‌ژنتیک در نرم‌افزار متلب ” رضائی ع ، رنجبران س,1386،تهران، انتشارات آذر

[13] D.A Coley.,”An Introduction to genetic Algorithms for scientists and engineers “ , word scientific,2000

[14]Goldberg D.E,”Genetic Algorithms in Search Optimization and Machine Learning” ,Adisson Wesley Longman Inc.,1997.

[15] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans. Acoust., Speech, Signal Process, 1979.

[16] M. Berouti, R. Schwartz, and J. Makhoul, enhancement of speech corrupted by acoustic noise, proc. IEEE ICASSP , Washington DC, April 1979, 208-211.

[17] Zenton Goh, Kah-Chye Tan, B T G Tan,” Postprocessing Method for Suppressing Musical Noise Generated by Spectral Subtraction “IEEE trans. on Speech and Audio Processing 1998

[18] Bodin, P. and Villemoes, L. F. (1997). Spectral subtraction in the timefrequency domain using wavelet packets. IEEE Workshop on Speech Coding for Telecommunications. Proceedings, New York, IEEE, 47{48.

[19] Ing Yann Soon, Soo Ngee Koh, Chai Liat Yeo, Wavelet for Speech Denoising, TENCON 97, Brisbane, Australia, 1997, pp: 479-482.

[20] J. S . Lim and A. V. Oppenheim, “All-pole modeling of degraded speech,” IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-26, no. 3, pp. 197-210, June 1978.

[21] J. H. L. Hansen and M. A. Clements, “Constrained iterative speech enhancement with application to speech, recognition,” IEEE Trans. Signal Processing, vol. 39, no. 4, pp 795-805, Apr. 1991.

[22] W.-R. Wu and P.-C. Chen, “Subband Kalman Filtering for Speech Enhancement,” IEEE Transactions on Circuits and Systems II, vol. 45, no. 8, pp. 1072–1083, Aug. 1998.

[23] W.H. Chen, C.H. Smith, S.C. Fralick, A fast computational algorithm for the discrete cosine transform, IEEE Trans. Commun. COM-25 (1977) 1004±1009.

[24] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,” IEEE Trans. Acoustics, Speech and Signal Processing, vol. ASSP-33, pp. 443—445, 1985.

[25] K. E. Mueller, “Computing the confluent hypergeometric function, m(a, b, x),” Numer. Math., vol. 90, pp. 179—196, 2001.

[26] Philipos C. Loizou”Speech Enhancement: Theory and Practice, CRC Press,2007

[27] L. Rabiner and B. Juang, “An introduction to hidden Markov models,” ASSP Magazine, IEEE, vol. 3, pp. 4-16, 1986.

[28] A. Varga and R. Moore, “Hidden Markov model decomposition of speech and noise,” in Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference on, 1990, pp. 845-848.

[29] H. Sameti, H. Sheikhzadeh, L. Deng, and R. L. Brennan, “HMM-based strategies for enhancement of speech signals embedded in nonstationary noise,” Speech and Audio Processing, IEEE Transactions on, vol. 6, pp. 445-455, 1998.

[30] Y. Ephraim and H. L. Van Trees, “A signal subspace approach for speech enhancement,” Speech and Audio Processing, IEEE Transactions on, vol. 3, pp. 251-266, 1995.

[31] J. Huang and Y. Zhao, “An energy-constrained signal subspace method for speech enhancement and recognition in white and colored noises,” speech Communication, vol. 26, pp. 165-181, 1998.

[32] M. Rezaei and H. Gazor, “Generalized Vector Variational-Like Inequalities,” Journal of Mathematical Extension, 2010.

[33] R. Vetter, “Single channel speech enhancement using MDL-based subspace approach in bark domain,” in Acoustics, Speech, and Signal Processing, 2001. Proceedings.(ICASSP’01). 2001 IEEE International Conference on, 2001, pp. 641-644.

[34] D. L. Donoho and I. M. Johnstone, “Threshold selection for wavelet shrinkage of noisy data,” in Engineering in Medicine and Biology Society, 1994. Engineering Advances: New Opportunities for Biomedical Engineers. Proceedings of the 16th Annual International Conference of the IEEE, 1994, pp. A24-A25 vol. 1.

[35] Q. Pan, L. Zhang, G. Dai, and H. Zhang, “Two denoising methods by wavelet transform,” Signal Processing, IEEE Transactions on, vol. 47, pp. 3401-3406, 1999.

[36] H. Choi and R. Baraniuk, “Analysis of wavelet-domain Wiener filters,” in Time-Frequency and Time-Scale Analysis, 1998. Proceedings of the IEEE-SP International Symposium on, 1998, pp. 613-616.

[37] J. Chen, Y. Huang, and J. Benesty, “Filtering techniques for noise reduction and speech enhancement,” in Adaptive Signal Processing, ed: Springer, 2003, pp. 129-154.

[38] F. Asano, S. Hayamizu, T. Yamada, and S. Nakamura, “Speech enhancement based on the subspace method,” Speech and Audio Processing, IEEE Transactions on, vol. 8, pp. 497-507, 2000.

[39] C. Avendano and G. Garcia, “STFT-based multi-channel acoustic interference suppressor,” in Acoustics, Speech, and Signal Processing, 2001. Proceedings.(ICASSP’01). 2001 IEEE International Conference on, 2001, pp. 625-628.

[40] Y. Ghanbari, M.R. Karami, “Spectral subtraction in the wavelet domain for speech Enhancement”, International Journal of software and Information Technologies (IJSIT), vol.1 no.1, pp:26-30,2004.

[41] Malihe hassani, M. R. Karami mollaei,“Speech Enhancement Based on Spectral Subtraction in Wavelet Domain” IEEE 7th International Colloquium on Signal Processing and its Applications,2011.

[42] J. R. Deller, J. H. L. Hansen, and J.G. proakis, Discrete-time 8,19sson

gorithms in Search

processing of speech signals. 2nd edition, IEEE press, 2000.

[43] L. R. Rabiner and R. W. Schafer. Digital processing of speech signals. Prentice Hall, 1978.

[44] Tierney J., A study of LPC analysis of speech in additive noise, IEEE trans. Acoust. Speech and signal process., ASSP-28,4, pp:389-379 (Aug.1980).

[45] Sambur M.r. and Jayant N.s., LPC analysis/synthesis from speech inputs containing guantizing noise or additive white noise, IEEE Trans. Acoust. Speech and signal process., ASSP-24, 6, pp:488-494 (Dec.1976).

[46]Coley D.A.,”An Introduction to genetic Algorithms for scientists and engineers “ , word scientific,2000 [47]Goldberg D.E,”Genetic Algorithms in Search Optimization and Machine Learning” ,Adisson Wesley Longman Inc.,1997.

چکیده

يکي از موضوعات مهم پردازش سيگنال) به عنوان مثال در سيستمهاي ارتباطي، كدينگ سيگنالهاي صوتي، تشخيص صوت (…، کاهش و حذف نويز ناخواسته از سيگنال اصلي و بهبود آن است. به همین منظور در دهه های گذشته تحقیقات گسترده ای  برای بهسازی گفتار  انجام شده است. بهسازي گفتار بسته به مساله، هدف آن، ويژگي هاي نويز و امکانات موجود، قابل بررسي است. از اين رو، روش هاي متفاوتي برای طبقه­بندی سیستم­های بهسازی گفتار وجود دارد، یکی از طرق تفکیک روش­ها بر اساس تک‌کاناله و چندکاناله بودن می باشد. روش های ­یک کاناله که تنها یک میکروفون ورودی در دسترس دارند، متداولترين نوع الگوريتم‌هاي بلادرنگ مي‌باشند چرا که به سادگي قابل پياده‌سازي هستند و به طور نسبي هزينه آنها کمتر از سيستمهايي با چند کانال ورودي مي‌باشد. از خانواده ی روش های تک کاناله، میتوان به روش های تفریق طیفی ، فیلتر وینر، بهسازی گفتار با استفاده از مدل های آماری، تبدیل موجک و … اشاره کرد که هر کدام از این روش ها دارای معایب نظیر نویز موزیکال و اعوجاج و پیچیدگی … می باشند یکی از روش هایی که میتوان عیب این روش ها را بهبود بخشید، استفاده از سیستم های ترکیبی است که از ترکیب روش ها حاصل می شود.

در این پایان­نامه دو روش ترکیبی جدید بر مبنای روش تک کاناله برای بهسازی گفتار پیشنهاد شده است. در ضمن عموما برای اندازه­گیری مشخصات نویز از  بخش­های غیر گفتار (سکوت)  که معمولا از پنجره اول سیگنال است، استفاده می شود. ضعف شدید این روش هنگامي آشكار ميشود كه فريم اول، يك فريم سكوت نباشد. در این پایان نامه روش جدیدی نیز برای بر طرف کردن این عیب پیشنهاد شده است که این روش ها به شرح زیر می باشند:

الف)روش پیشنهادی تخمین نویز: تخمین نویز با استفاده از آنالیز LPC  صورت گرفته است  و در هر دو روش پیشنهادی زیر از این روش برای تخمین نویز استفاده شده است.

ب) روش پیشنهادی اول: بهسازی سیگنال های صوتی با استفاده از الگوریتم ژنتیک و آنالیز LPC در روش تفریق موجک، از ترکیب روش های تفریق طیفی و تبدیل موجک حاصل شده و  تخمین نویز آن هم که توسط آنالیز LPC صورت گرفته است با الگوریتم ژنتیک بهبود یافته است.

پ) روش پیشنهادی دوم: بهسازی سیگنال های صوتی با استفاده از روش میانگین خطای مربعات در فضای موجک، از ترکیب دو روش تبدیل موجک و كمينه كردن لگاریتم خطاي ميانگين مربعات(LOG-MMSE)  حاصل شده است. در این روش با استفاده از تبدیل فوریه ضرایب موجک سیگنال گفتار آغشته به نویز  و سیگنال نویز، تخمین زننده ی لگاریتمی بر مبنای کمترین خطای میانگین مربعات پیشنهاد شده است.

در این رساله معیار ارزیابی ، معیارهای مهم نسبت سیگنال به نویز(SNR)   و تست شنوایی(MOS)   بوده است. با توجه به نتایج، این روش ها هم از لحاظ کیفی و هم از لحاظ کمی عملکرد بهتری داشته اند  و توانسته اند  SNR و MOS و  اعوجاج و نویز موزیکال را بهبود ببخشند.

کليد واژه: بهسازي سیگنال صوتی، ،تفریق طیفی تبدیل موجك، تخمین زننده  log MMSE، آناليز LPC ، الگوریتم ژنتیک

1-1 پیشگفتار

با رشد روز افزون استفاده از سیستم های گفتاری درکاربرد های عملی و روزمره، نیاز به حفظ کیفیت گفتار به عنوان امری اجتناب ناپذیر مطرح گردیده است. شرایط ایده ال و عاری از نویزی که در کارها و شبیه سازی های آزمایشگاهی در نظر گرفته می شود، در بسیاری از کاربردهای واقعی، به طور جدی نقض گردیده و برقراری آنها زیر سوال می رود. به عنوان مثال، استفاده ار تلفن همراه، سمعک، سیستم بازشناسی گفتار یا هر وسیله ارتباط گفتاری در یک محیط نویزی، همگی از مواردی است که در آن، حفظ کیفیت گفتار و بالا نگه داشتن کارایی سیستم از اهمیت خاصی برخوردار می باشد؛ بدون استفاده از روش های بهسازی گفتار، عملکرد این سیستم ها به شدت تنزل یافته و چه بسا که غیر قابل قبول خواهد گردید. از این رو، مبحث بهسازی گفتار به عنوان یکی از ضرورت های کاربردی و عملی، از زمینه های فعال تحقیقاتی در سال های اخیر بوده است. در ادامه این فصل به بررسی اجمالی مسايل و مباحث موجود در زمینه بهسازی گفتار می پردازیم.

1-2 بهسازی گفتار نویزی:اهداف،کاربردها،مفاهیم

در قالب یک تعریف کلی، موضوع بهسازی گفتار یا speech enhancement  ، عبارتست از تلاش برای بهبود عملکرد سیستم های ارتباط گفتاری در مواردی که سیگنال تحت تاثیرنویز، انعکاس ها و سایر عوامل تخریبی گردیده است.

نیاز به بهسازی گفتار از آنجا ناشی می شود که سیگنال گفتار:

یا: از منبعی تولید می شود که در محیط نویزی قرار دارد،

یا: تحت تاثیر کانال انتشار و در اثرنویز یا انعکاس دچار تخریب می شود،

یا: در گیرنده به نویز آلوده می گردد.

(البته منشاء عوامل تخریبی وارد شونده در مساله می تواند ترکیبی از این سه حالت نیز باشد.)

منظور از بهبود بخشیدن در تعریف فوق را می توان با اشاره به عملکرد اصلاحی فرآیند بهسازی گفتار درنمونه های کاربردی زیر تشریح نمود:

سیستم های تلفن: در آنها گفتار اصلی به وسیله نویز زمینه یا نویز موجود در مسیر مخابره و نیز در اثر انعکاس صدای طرفین مکالمه، خراب می شود.

تلفن های عمومی: که در محیط های پر سروصدا و شلوغ واقعند.

سیستم های مخابرات هوا به زمین: که در آنها نویز اتاقک خلبان، پیام ارسال شده از سوی خلبان را خراب می کند.

سمعک: که به عنوان تقویت کننده، هم سیگنال گفتار و هم نویز موجود در محیط را تقویت نموده و موجب ناراحتی فرد استفاده کننده می گردد.

سیستم های باز شناسی گفتار یا گوینده: که معمولا برای سیگنال های تمیز(بدون نویز) آموزش یافته و در شرایط نویزی، با افتی شدید در بازدهی و کارایی مواجه می شود.

و موارد کاربردی دیگر…

کاربرد های متنوع بهسازی گفتار، اهداف متفاوتی را برای این فرآیند به دنبال آورده است. در حالی که در برخی موارد، افزایش قابلیت درک گفتار منظور نظر می باشد، در کابردهای دیگر، کاهش خستگی شنونده، هدف غایی از اعمال فرآیند بهسازی گفتار است. شاید بتوان بهبود(کیفیت عمومی گفتار) را به عنوان جامع ترین عبارت برای بیان هدف و منظور از بهسازی گفتار استفاده نموده و در کاربرد های مختلف، تعریف مناسبی از کلمه(کیفیت) ارایه داد: کاری که درعمل تا حدودی پیچیده می باشد.

قابل توجه است که بسیاری از منبع و مراجع در بحث بهسازی گفتار، نویز را به عنوان اصلی ترین عامل تخریبی سیگنال گفتار در نظر گرفته و به بررسی راهکارهای پاکسازی گفتار نویزی پرداخته اند. در این پایان نامه نیز از میان عوامل مختلف سیگنال گفتار، توجه ما بر روی نویز متمرکز می باشد. البته همان گونه که خواهیم دید برخی از روش های مورد بررسی(فیلترهای وفقی) به طور معادل هم در پاکسازی نویز و هم در حذف انعکاس قابل استفاده می باشند.

مسائل بهسازی گفتار، خانواده ای گسترده از مباحث را شامل می شود که به واسطه­ی:

نوع منبع نویز

چگونگی بر هم کنش نویز یا سیگنال اصلی

تعداد کانال یا میکروفون در دسترس

مشخص می­گردد. نویز یا سیگنال تداخل کننده ممکن از ناشی از همهمه، موسیقی، باد، ترافیک یا… بوده و یا به بیان دقیق تر از لحاظ طیف توان دارای شکل های مختلفی باشد. هر یک از این انواع نویز، می تواند به نحوی متفاوت با دیگری، اثر تخریبی خود را بر روی سیگنال های گفتار اعمال نماید؛ مثلا در حالی که نویز های با محتوای فرکانسی 500-400 هرتزتا 5-4 کیلوهرتز به شدت قابلیت درک گفتار را کاهش می دهند، نویز های با انرژی در فرکانس های بالای 5-4 کیلوهرتز، اگرچه باعث خستگی شنونده می گردند ولی اثر آنها در قابلیت درک گفتار ناچیز است. در واقع، هرچند در بسیاری از شبیه سازی ها و کارهای تحقیقاتی، طیفی سفید برای نویز اثر کننده بر سیگنال گفتار در نظر گرفته می­شود، ولی در عمل کمتر نویزی واقعی دارای طیفی سفید می­باشد.از سوی دیگر، منشا ورود نویز به سیستم می تواند در محل منبع سیگنال اصلی، یا در مسیر مخابره یا در محل گیرنده باشد. نویز ممکن است با سیگنال اصلی، جمع،ضرب یا کانوالو شود. همین طور امکان مستقل یا وابسته بودن نویز به سیگنال اصلی نیز وجود دارد.

دیگر مساله مشکل ساز، ماهیت ناایستان بسیاری از منابع نویزی و تغییر شرایط محیط می باشد؛ مساله ای که سیستم بهسازی گفتار را ملزم به نوعی تطبیق زمانی می­نماید.

پارامتر مهم دیگر، تعداد کانال ها یا میکروفون هایی است که سیستم بهسازی گفتار از آنها به عنوان ورودی استفاده خواهد نمود. به عنوان مثال، وجود یک میکروفون دوم برای داشتن سیگنال نویز مرجع در کنار میکروفون اول که سیگنال گفتار نویزی را دریافت می دارد موجب می گردد سیستم از خواص آماری و طیفی نویز مطلع گشته و در ضمن بتواند ناایستایی نویز را به خوبی دنبال نماید.

1-3 تعریف مسئله و تقسیم بندی روش ها

بهسازي گفتار بسته به مساله، هدف آن، ويژگي هاي نويز و امکانات موجود قابل بررسي است. از این رو، راه های متفاوتی برای طبقه بندی سیستم های بهسازی گفتار وجود دارد. یکی از طرق تفکیک روش ها، بر اساس پارامتری و غیر پارامتری بودن می باشد؛ در حالی که تکنیک هایی نظیرتفریق طیفی و زیر فضای سیگنال به دلیل کار بر روی خود سیگنال، الگوریتم غیر پارامتری محسوب می گردند. روش هایی نظیر  HMM و MMSE به دلیل استفاده از مدل های آماری و تصادفی برای سیگنال گفتار و نویز، در خانواده روش های پارامتری قرار می گیرند.

روش های بهسازی گفتار بر پایه تعداد کانال(میکروفون)ورودی نیز قابل تقسیم بندی می باشند؛ بر این اساس دو خانواده تک کاناله و چند کاناله برای  گروه بندی روش های مختلف منظور می گردند. در روش های یک کاناله، تنها یک میکروفون ورودی در دسترس بوده و اندازه گیری مشخصات نویز می باید در بخش های غیر گفتار (سکوت) همان کانال صورت بگیرد. اساس کار این گروه از روش ها، مبتنی بر فرض ایستان بودن موضعی نویز می باشد؛ فرضی که در مواجهه با نویزهای با دینامیک زیاد، زیر سوال رفته و عملکرد روش را دچار خدشه می نماید. در روش های چند کاناله، دو یا چند گیرنده در ورودی سیستم بهسازی گفتار مورد استفاده واقع می شوند. افزایش تعداد میکروفون ها و یا کانال های ورودی، قدرت روش را در پاکسازی سیگنال نویزی بالا می برد، ولی در مقابل هزینه و پیچیدگی پیاده سازی سیستم نیز افزوده می گردد. روش دو کاناله فیلتر وفقی به عنوان متداول ترین عضو از این گروه روش ها مطرح می باشد. در این روش،یکی از دو ورودی، نویز مرجع و دیگری سیگنال نویزی است.

در هر یک از روش های تک کاناله معایبی وجود دارد. هدف از این پایان­نامه، ارائه ی روشی بر مبنای روش تک­کانال با استفاده از سیستم ترکیبی است که بتواند عیب های روش ها و  نسبت سیگنال به نویز  و کیفیت شنیداری سیگنال گفتار آغشته به نویز  را بهبود ببخشد.

1-4 نوآوری تحقیق

مبنای این پایان­نامه، بهسازی سیگنال گفتار  بر اساس ترکیب روش های بهسازی گفتار  است که باعث بهبود عیب روش ها می شود. در این پایانامه روش تفریق طیفی در فضای تبدیل موجک اعمال شده است که باعث تفریق اندازه طیف ضرایب تبدیل موجک می شود و بر مبنای آن اندازه طیف ضرایب موجک سیگنال تمیز تخمین زده می شود. همچنین روش log-mmse در فضای تبدیل موجک پیاده شده است که باعث ایجاد تخمینگر جدید می شود که اندازه طیف ضرایب موجک سیگنال تمیز توسط این تخمینگر ،تخمین زده می شود. همچنین با استفاده از آنالیز LPC  روش جدیدی برای تخمین نویز حاصل شده است .

1-5  ساختار پایانامه

این پایان­نامه بدین صورت  تنظیم شده است: در فصل دو  در مورد تئوری کلی سیگنال گفتار صحبت می شود. سپس در فصل سه خلاصه هاي کلی از سابقه ي تئوري هاي انجام شده اي که در راستاي این پایان نامه است، مطرح می شود. در فصل چهارم در مورد روش های پیشنهادی بطور کامل بحث می شود. در فصل پنج نتایج روش پیشنهادی و مقایسه آن با روش های پیشین آورده شده است و در نهایت در فصل شش نتیجه گیری و پیشنهادات برای کارهای آتی مطرح می شود.

فصل دوم

پیش زمینه های پردازش سیگنال گفتار

2-1 نحوه توليد گفتار در انسان 

قبل از شروع تشريح الگوريتم­هاي بهبودگفتار، مهم است که با سيگنال گفتار و مخصوصاً با فرآيند توليد گفتار، بيشتر آشنا شويم و اشاره‌اي داريم به تنوع آکوستيکي که به درک گفتار مربوط مي‌شود..

سيگنال گفتار، يک سيگنال غيرايستان است که توان دوم آن (توان طيف) در طول زمان تغيير مي­کند. هنگامي که بررسي دقيق­تري مي­کنيم در دوره­هاي زماني کوچک، مشخصات آن تقريباً ايستان هستند. شکل 2-1 مثالی از شکل موج زماني  يک جمله به زبان انگليسي را نشان مي­دهد.

شکل موج سيگنال به تعدادي قاب[1] يا فريم تقسيم شده که متناظر با تعداد کلمات گفته شده و نوع صدا مي‌تواند متفاوت باشد. همانطور که در شکل 2-1 نشان داده شده است برخي از قسمت­هاي گفتار، شبه متناوب هستند. براي نمونه در طول هجای “er” در her “” در قسمت­هايي مي­تواند غير­متناوب شبه نويزي باشد. براي مثال در طول توليد صامت “f”  در “wife” . قسمت­هايي نيز مي­توانند شامل سکوت يا فاصله بين جملات باشند (فلش در شکل 2-1). برخي از قسمت­ها داراي شدت زياد هستند (صداي “i” در “wife”) و از سوي ديگر برخي از قسمت­ها شدت کمتري دارند (مثل صامت “f” در “wife” ). به صورت کلي دوره‌ي زماني، شدت و طيف هر قسمت مي­توانند بسته به گوينده و در طول صحبت تغيير کنند. قسمت­هاي بعد گفتار متناوب، شبه نويزي خاموش است، که به صوت عمومي در گفتار سليس يافت مي­شود و شدت و طول و مشخصات فرکانسي آن متغير مي­باشد. در ادامه شرح مي‌دهيم که اين قسمت‌هاي سيگنال گفتار چگونه به وسيله سيستم توليد گفتار انسان ساخته مي­شوند. شکل 2-2 يک تصوير مقطعي از آناتومي توليد گفتار را نشان مي­دهد. همان­طور که نشان داده شده است، توليد گفتار تعدادي از اعضا و عضلات شامل ريه، حنجره و کانال صوتي را مورد استفاده قرار می دهد.

[1] Frame

همه پایان نامه و تحقیق و پروژه های به صورت فایل دانلودی می باشند و شما به محض پرداخت آنلاین مبلغ همان لحظه قادر به دریافت فایل خواهید بود. این عملیات کاملاً خودکار بوده و توسط سیستم انجام می پذیرد. ضمنا همان لحظه لینک دانلود به ایمیل شما ارسال می گردد.

 جهت پرداخت مبلغ شما به درگاه پرداخت یکی از بانک ها منتقل خواهید شد، برای پرداخت آنلاین از درگاه بانک این بانک ها، حتماً نیاز نیست که شما شماره کارت همان بانک را داشته باشید و بلکه شما میتوانید از طریق همه کارت های عضو شبکه بانکی، مبلغ  را پرداخت نمایید

مطالب پیشنهادی:
برچسب ها : , , , , , , , , ,
برای ثبت نظر خود کلیک کنید ...

به راهنمایی نیاز دارید؟ کلیک کنید

جستجو پیشرفته

دسته‌ها

آخرین بروز رسانی

    Fatal error: Call to undefined function jdate() in /home/bmaghale/domains/bmaghale.ir/public_html/wp-content/themes/digitaliran5/sidebar.php on line 122