فرمت ورد:سمینار ارشد برق الکترونیک: ارتقای فشرده سازی سیگنال گفتار با استفاده از چندی کننده های برداری عصبی

دانلود پایان نامه

با عنوان : ارتقای فشرده سازی سیگنال گفتار با بهره گیری از چندی کننده های برداری عصبی

در ادامه مطلب می توانید تکه هایی از ابتدای این پایان نامه را بخوانید

و در صورت نیاز به متن کامل آن می توانید از لینک پرداخت و دانلود آنی برای خرید این پایان نامه اقدام نمائید.

دانشگاه آزاد اسلامي

واحد تهران جنوب

دانشكده تحصيلات تكميلي

“M.Sc” پايان نامه براي دريافت درجه كارشناسي ارشد

مهندسي برق – الكترونيك

عنوان:

ارتقاي فشرده سازي سيگنال گفتار با بهره گیری از چندي كننده هاي برداري عصبي

برای رعایت حریم خصوصی اسامی استاد راهنما،استاد مشاور و نگارنده درج نمی گردد

تکه هایی از متن به عنوان نمونه :

(ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل می باشد)

چكيده

پارامترهاي كدكردن براساس پيشبيني خطي يا ضرايب LPC بطور گسترده در فشرده سازي سيگنال گفتار مورد بهره گیری قرار ميگيرد. از سوي ديگر، شبكه هاي عصبي مصنوعي به عنوان سيستم هوشمندي هستند كه ميتوانند در سيستمهاي خطي و غيرخطي مانند كدينگ گفتار و تصوير بكار طریقه. در اين تحقيق دو نمونه از شبكه هاي عصبي مبتني بر تكنيك چندي سازي برداري به نامهاي شبكه كوهنن و ARTMAP معرفي ميشوند، كه از آنها براي دسته بندي بردارهاي حاصل از پردازش سيگنال گفتار ورودي بهره گیری ميشود، در اين تكنيك با بهره گیری از زوجهاي خط طيفي (LSP) بعنوان يك پارامتر قابل جايگزيني بجاي ضرايب LPC ميتوان نرخ بيت را كاهش داد در حاليكه كيفيت گفتار سنتز شده تقريباً حفظ ميشود و اين بدليل اين می باشد كه وقتي از پارامترهاي LSP بهره گیری ميشود، فركانس هاي فرمنت (Formant) خوبي بدست مي آيد كه مشابه فركانسهاي اصلي سيگنال گفتار ميباشد. با اين روش، نرخ بيت با در نظر داشتن واكدار يا بي واك بودن قاب گفتار مربوطه بين 2 تا 33 درصد كاهش مي يابد. همچنين در اين تحقيق شبكه هاي عصبي كوهنن و نظريه تشديد تطبيقي به عنوان دو شبكه عصبي بدون سرپرست و روش چندي سازي بردارهاي يادگيري به عنوان يك شبكه عصبي با سرپرست معرفي و نتايج حاصل از هريك با هم مقايسه ميشوند. نمونه هاي صوتي بكار رفته نيز به زبان فارسي ميباشند.

مقدمه

اخيراً اكثر تكنيك هايي كه براي فشرده سازي سيگنال گفتار بكار ميروند، براساس پيش بيني خطي ساختار يافته اند. سيگنال گفتار بعنوان يك ابزار مهم در ارتباطات بشر در فناوري هاي ديجيتالي مورد توجه خاص قرار گرفته می باشد. نرخ بيت سيگنال گفتار ارسال شده بايد كاهش يابد. سيگنال گفتار يك سيگنال پيوسته و غيرخطي بوده كه بصورت فيزيكي توسط لوله صوتي بشر توليد و شكل داده ميشود، بنابراين ويژگي هاي سيگنال گفتار به حركات لوله صوتي در طول زمان و همچنين مشخصات گوينده بستگي دارد. تبديل پارامترهای LPC به LSP كارايي كدكننده هاي با نرخ بيت كم را بهبود ميبخشد.

پارامترهای LSP فركانس هاي فرمنت لوله صوتي را بصورت رياضي مدلسازي ميكنند. ازسوي ديگر شبكه هاي عصبي به عنوان ابزاري موفق تاكنون در كاربردهاي گوناگوني از پردازش گفتار و زبان مورد بهره گیری قرار گرفته اند. در اين راستا كاربردهاي بازشناسي خودكار گفتار (ASR)، سنتز گفتار طبيعي و پردازش زبان طبيعي (NLP) به عنوان نمونه هايي كه توسط مؤلف براي زبان فارسي تجربه شده اند، قابل ذكر می باشد. براي كدكننده هاي گفتار نيز شبكه هاي عصبي در حوزه كاري مورد بهره گیری قرار گرفته اند: پيش بيني كننده هاي نوروني براي بهبود كيفيت و كاهش پيچيدگي محاسباتي در كدكننده ها. در اين تحقيق يك روش جديد براي كد كردن گفتار با نرخ بيت كم معرفي ميشود كه از پارامترهاي LSP براي استخراج و نگاشت ويژگيهاي سيگنال گفتار با بهره گیری از نوعي شبكه عصبي مصنوعي بنام شبكه خود سازمانده (SOM) بهره گیری ميكند. بهره گیری از اين روش نرخ بيت گفتار بازسازي شده را كاهش مي دهد، در حالي كه كيفيت سيگنال تفاوت آشكاري با گفتار اصلي ندارد. براي اندازه گيري كيفيت گفتار سنتز شده از معيار ميانگين امتياز آرا داده شده (MOS) بهره گیری می گردد.

فصل اول: كليات

1-1) هدف

يكي از ابزارهاي ارتباطي بشر، گفتار می باشد. سيستمهاي ارتباطي نوين و پيشرفته بطور گستردهاي براساس پردازش و ارسال گفتار بنا نهاده شده اند. خطوط تلفن ديجيتال، شبكه هاي اينترنت، ويديو كنفرانسها و پيام هاي صوتي تنها تعدادي از كاربردهاي روزمره چنين سيستمهايي می باشد. با وجود چنين كاربردهاي وسيعي، ناگزير نياز به گفتاري باكيفيت بالا در پهناي باند ارسال كمتر هست. كار اصلي كدكننده هاي گفتار پيشرفته، رقمي كردن سيگنال گفتار آنالوگ با بهره گیری از فرآيند نمونه برداري می باشد. بنابراين يك كدكننده براي توليد شكل كدشده از يك سيگنال گفتار، يك دنباله ي عددي را پردازش ميكند. گفتار كد شده بسته به كاربردي كه دارد، ارسال يا ذخيره ميشود. كار هر واكدكننده نيز بازسازي گفتار اصلي از دنباله هاي كدشده می باشد. كد كردن گفتار يك فشرده سازي همراه با اتلاف می باشد، يعني مقداري از كيفيت سيگنال گفتار اصلي در طي عمليات فشرده سازي به ازاي كاهش حجم اطلاعات و افزايش سرعت ارسال، كاسته ميشود. براي بهبود كيفيت گفتار فشرده شده روشهاي مختلفي هست، در اين تحقيق، از يك شبكة عصبي با قابليت خودسازماندهي براي اين كار بهره گیری شده می باشد. از اين شبكه عصبي مصنوعي همان گونه كه توضيح داده خواهد گردید، براي دسته بندي بردارهاي حاصل از پردازش گفتار بهره گیری ميشود. دسته بندي بردارهاي بدست آمده از پردازش و چنديسازي گفتار باعث كاهش بيت هاي بكار رفته در گفتار كد شده و در نتيجه فشرده سازي بيشتر آن ميشود، در حالي كه كيفيت گفتار حاصل بر اساس معيارهاي MOS حفظ می گردد.

تعداد صفحه : 102

قیمت : 14700 تومان

 

شما می توانید تکه های دیگری از این مطلب را در شماره بندی انتهای صفحه بخوانید              

***

شما می توانید مطالب مشابه این مطلب را با جستجو در همین سایت بخوانید                     

—-

پشتیبانی سایت :       

———-          [email protected]

این نوشته در مهندسی برق ارسال شده است. افزودن پیوند یکتا به علاقه‌مندی‌ها.

دیدگاهتان را بنویسید