+98 21 8609-3065 h.veisi@ut.ac.ir
Speech Processing

پردازش گفتار دیجیتال

نيم‌سال دوم 1401-1400

معرفی

تعداد واحد: 3                                      پیش‌نیاز: ندارد

نوع : نظری

شنبه و دو‌شنبه، ساعت 8:00 الی 10:00 (به مدت 1:30 ساعت) – دانشکده علوم و فنون نوین (سامانه eLearn.ut.ac.ir)

مدرس: دکتر هادی ویسی، دانشکده علوم و فنون نوین، دانشگاه تهران (پست الکترونیکی: h.veisi@ut.ac.ir)

دستیار آموزشی: پدرام عبدزاده (pabdzadeh@gmail.com) – آتنا عرب احمدی (atena.arabahmadi@ut.ac.ir)

شرح درس

درس پردازش گفتار به عنوان مبانی فناوری پردازش زبان گفتاری، مروری بر مفاهیم پایه پردازش گفتار دیجیتال و کاربردهای آن مانند تشخیص گفتار، سنتز گفتار، بهسازی گفتاری و… است. در این درس، اصول و روش‌های پردازش سیگنال گفتار و یادگیری ماشین پوشش داده می‌شوند و در طول درس تمرین‌های مرتبط صورت می‌گیرد.

منابع

1- هادی ویسی، کبری مفاخری، پردازش گفتار: مبانی نظری، الگوریتم ها و توسعه محصول (جلد اول)، نص، 1400

2- X Huang, A Acero, HW Hon, Spoken Language Processing, Prentice Hall, Upper Saddle River, NJ, USA, 2001.

3- Daniel Jurafsky and James H. Martin, Speech and Language Processing, Pearson Education (2nd edition, 3rd Ed), 2008, 2021.

4- R. Deller, J. G. Proakis, J. H. Hansen, Discrete Time Processing of Speech Signals, Prentice Hall PTR Upper Saddle River, NJ, USA, 1993.

5- Lawrence R. Rabiner, Ronald W. Schafer, Theory and Applications of Digital Speech Processing, Pearson, 2011.

Dear students, by having your student number, you can see the grades related to your homework and midterm exam.
Attempts have been made to calculate the scores with the utmost accuracy and fairness.
To view each section, click on its title, then Download.

Final
Project
Midterm
Homework 4
Homework 3
Homework 2
Homework 1

Download

تحویل پروژه درس پردازش گفتار دیجیتال و بازبینی نمره‌ها‎

زمان و شرایط تحویل پروژه پردازش گفتار دیجیتال (برای افرادی که موضوع پروژه را با بنده نهایی کرده اند) و بازبینی نمره‌های امتحان‌‏‏‏ها به صورت زیر است. کلیه نمره‌‏ها تا قبل از تاریخ زیر در وب سایت درس قرار داده می‌شود.

  • تاریخ تحویل پروژه روز دوشنبه 11/11/1400 ساعت 11 تا 12 می‏باشد.
  • تحویل پروژه به صورت حضوری (آنلاین) است و اجرا و کارکرد برنامه بررسی می‌شود. در صورتی که امکان حضور در جلسه تحویل پروژه را ندارید قبل از آن ساعت فایل‌های پروژه را به بنده ایمیل کنید که در این صورت بر اساس بررسی مستندات نمره به پروژه داده می‌شود.
  • جلسه در سکایپ خواهد بود (آیدی بنده h.veisi)
  • موارد لازم در زمان تحویل:
    1. کلیه کدهای پروژه
    2. داده‌های مورد استفاده در پروژه
    3. گزارش کتبی
    4. مقاله‌ها و منابع مورد استفاده

لطفا یک نسخه کامل از این موارد را در یک فایل زیپ قبل از ساعت تحویل ایمیل کنید.

  • بارم بندی نمرات به صورت زیر است:
  1. انجام درست پیاده‌سازی و مرتب بودن کدها: 50%
  2. کامل بودن گزارش (شامل نحوه استفاده از کد و مبانی علمی کار) و رعایت اصول نگارشی در آن: 25%
  3. ارائه نتایج و تحلیل آن (در گزارش): 25%
  • اعتراض به نمره‌ها هم‌زمان با تحویل پروژه انجام می‌شود.
  • این تنها مهلت تحویل پروژه و بازنگری نمره‌هاست و تمدید نمی‌شود.

نمره‌دهی

توضیح

وزن

عنوان

بعد از هر موضوع (وزن تمرین‌ها برابر نیست) 50% تمرین

در شرایط غیرحضوری کلاس‌ها ندارم

آزمونک (کویز)

دوشنبه 1401/02/05 ساعت 8:00 15% امتحان میان‌ترم
از کل مطالب درس، مطابق برنامه دانشگاه
در صورت داشتن آزمونک وزن این آزمون 15% خواهد بود
20% امتحان پایان‌ترم

موضوع اختیاری، تعیین موضوع تا شنبه  1401/02/05
تحویل پروژه: اولین دوشنبه بعد از آخرین امتحان پایان‌ترم

15% پروژه
پاسخ دادن به سوالات حین تدریس و مشارکت در بحث‌های کلاس 5% حضور و مشارکت کلاس (نمره اضافی)
مقاله ارسال شده به مجله/کنفرانس مورد قبول است 15% مقاله (نمره اضافی)

همان‌طور که مشخص است، بخش عمده نمره به تمرین‌ها و پروژه اختصاص داده شده است، لذا جهت موفقیت، همراهی دانشجو در طول ترم و یادگیری مستمر با انجام به موقع تمرین‌ها، لازم است.

سیاست‌های درس

1. تمرین: برای هر بخش (موضوع)، تعدادی تمرین در نظر گرفته شده است که باید در مهلت‌های مقرر شده تحویل شود. همفکری و همکاری در یافتن پاسخ سوال‌ها نه تنها بلامانع است، بلکه مورد حمایت نیز است، اما پاسخ هر دانشجو باید توسط خودش و به صورت مستقل نوشته شود و در صورتی که کپی بودن یکی یا چند مورد از پاسخ سوال‌های یک تمرین مشخص شود، کل نمره آن تمرین در نظر گرفته نمی‌شود. تمرین‌های دارای پیاده‌سازی، باید هم شامل کدها و هم شامل گزارش مربوطه باشد، ارسال گزارش یا کد به تنهایی، شامل نمره نمی‌شود.

ارسال پاسخ تمرین‌ها: تنها به صورت الکترونیکی و به ایمیل استاد درس است. تحویل کاغذی نیاز نیست و در صورت نوشتن پاسخ تمرین‌های حل شدنی روی کاغذ، تصویر آن را ارسال کنید. همه مطالب و فایل‌های مرتبط با یک تمرین را در یک فایل فشرده شده ارسال کنید. فرمت نام‌گذاری فایل ارسالی به صورت زیر است (لطفا از ارسال فایل با اسم‌هایی مانند New Folder.rar یا HW.rar خودداری کنید):

Speech_Family_StNo_HW#.rar

که در آن Family بیانگر نام‌خانودگی دانشجو، StNo شماره دانشجویی و # شماره تمرین است. مثلا پاسخ تمرین شماره 1 توسط آقای/خانم احمدی با شماره دانشجویی 830496001 به صورت Speech_Ahmadi_830496001_HW1.rar است.

تاخیر در تحویل: تحویل به موقع پاسخ تمرین‌ها از موارد ضرروی است و پاسخ‌ها باید حداکثر تا ساعت 23:59 تاریخ تعیین شده ارسال شود. در صورت داشتن تاخیر در ارسال پاسخ‌ها، به ازای هر یک ساعت تاخیر (از یک ثانیه تا 60 دقیقه!) به میزان 1% از نمره آن کسر می‌شود.

2. حضور و مشارکت: با توجه به غیرحضوری بودن کلاس‌ها و عدم تمرکز برخی از دانشجویان (علیرغم حضور ظاهری در جلسه)، نیاز است دانشجویان با استاد در حین تدریس برای مشارکت در بحث‌ها و پاسخ‌دهی به سوالات همراهی کنند. این موضوع هر جلسه بررسی شده و جمع حضور و مشارکت افراد در کلاس به عنوان نمره این شاخص در نظر گرفته می‌شود.

3. آزمونک (کویز): در شرایط غیرحضوری بودن کلاس‌ها آزمونک نداریم اما برای شرایط حضوری آزمونک در برخی از کلاس‌ها خواهیم داشت که در این صورت از نمره امتحان پایان‌ترم برای نمره این آزمون کم می‌شود.

4. امتحان میان‌ترم: آزمون میان‌ترم شامل مطالب تدریس شده تا زمان آزمون خواهد بود. در صورت غیرحضوری بودن آزمون، سیاست‌ها و روال‌های برگزاری آزمون به اطلاع رسانده می‌شود.

5. امتحان پایان ترم: این آزمون شامل کلیه مطالب تدریس شده (از جمله مطالب پوشش داده شده در آزمون میان‌ترم) است. در صورت غیرحضوری بودن، جزئیات روال برگزاری آزمون پایان‌ترم قبل از این آزمون اعلام می‌شود.

6. پروژه: برای درس، هر دانشجو باید یک پروژه کاربردی جهت پیاده‌سازی انتخاب کرده و آن را در MATLAB/Python (یا سایر زبان‌های برنامه‌نویسی) پیاده کند. در انجام پروژه نیاز به نوآوری نبوده و کافیست پیاده‌سازی از یک پژوهش (مقاله، پایان‌نامه و …) موجود صورت پذیرد. علاوه‌بر کد برنامه، گزارش مکتوبی (به صورت تایپ شده) از دانشجویان تحویل گرفته می‌شود که باید شامل نتایج بدست آمده و تحلیل‌های مربوطه باشد. هر دانشجو می‌تواند با هماهنگی استاد موضوع خود را انتخاب کرده و اعلام نماید. آخرین زمان تعیین موضوع پروژه در جدول نمره‌دهی مشخص شده است. در صورت عدم نهایی کردن موضوع تا این تاریخ، یک موضوع توسط استاد تعیین شده و برای دانشجو در نظر گرفته می‌شود. برخی موضوع‌های پیشنهادی عبارتنداز:
• تشخیص احساس در گفتار با استفاده از یادگیری عمیق
• تشخیص گفتار برای تعداد کلمات محدود
• تبدیل متن به گفتار با استفاده از شبکه‌های عمیق مانند مبدل‌ها یا GAN
• بهسازی گفتار و حذف نویز با شبکه‌های عصبی عمیق
• بازشناسی دیداری-شنیداری (Audio-Visual) گفتار

7. مقاله: برای آن دسته از دانشجویانی که در موضوع‌های مرتبط با درس، به ویژه در پروژه، کار علمی مناسبی انجام داده و به نتایج قابل انتشاری دست یافته‌اند، می‌توانند آن را در قالب یک مقاله منتشر کنند. در این درس، نوشتن مقاله نه تنها اجباری نیست و نمره آن مازاد بر نمره درس است، بلکه در هیچ شرایطی نباید به عنوان یک هدف در نظر گرفته شود. مقاله باید محصول جانبی یک کار پژوهشی خوب باشد. لذا از نظر سیاست‌های این درس، ننوشتن مقاله، بسیار پسندیده‌تر از نوشتن آن به هر قیمتی است! نمره مقاله تنها به دانشجویانی تعلق می‌گیرد که قبل از ارسال نمرات درس به آموزش، مقاله خود را به مجله/کنفرانس ارسال کرده باشند. بدیهی است قبل از ارسال هر مقاله‌ای نیاز به بررسی و تایید استاد درس وجود دارد. یادآوری می‌شود دانشجویانی که استاد راهنمای آنها مشخص شده است، لازم است همکاری با این درس در نوشتن مقاله را به اطلاع استاد خود برسانند.

8. بازنگری نمره‌ها و برگه‌ها: دانشجویانی که درخواست دارند هر کدام از نمرات آنها بازنگری شود و یا برگه‌های خود را ببینند، در زمان تحویل پروژه درس این کار را انجام دهند.

9. تقلب و کپی‌بردای: هدف درس تمرین و یادگیری مطالب موردنظر توسط دانشجو در طول ترم است و لازم است تمام مطالب مربوط به تمرین‌ها توسط خود دانشجو انجام شود. هرچند همکاری دانشجویان در حل مسائل درس توصیه می‌شود اما پاسخ نهایی سوال‌ها باید توسط هر دانشجو به صورت مستقل نوشته شود. در صورتی که در هر شرایطی مشخص شود که تمام یا بخشی از مطالب توسط دانشجو آماده نشده و کپی‌برداری مستقیم و بدون مرجع بوده است، تقلب تلقی شده و مطابق قوانین انضباطی دانشگاه با آن رفتار می‌شود.

سیلابس درس
  • مروری بر مفاهیم و کاربردهای پردازش گفتار
  • مروری بر پردازش سیگنال دیجیتال
    • مبانی سیگنال‌ها و سیستم‌ها
    • تبدیل فوریه و Z
  • مروری بر آمار و احتمال
    • نظریه احتمال و توزیع‎های مختلف
    • نظریه تخمین
  • مروری بر یادگیری ماشین و بازشناسی الگو
    • مبانی یادگیری ماشین
    • شبکه عصبی و یادگیری عمیق
  • ساختار زبان گفتاری
    • تولید گفتار و درک گفتار (اندام‌ها، واک‌داری، طیف‌نگار و فرمنت)
    • آواشناسی و واج شناسی: فارسی و انگلیسی
    • هجاها و واژه‌ها
  • نمایش سیگنال گفتار
    • مدل منبع-فيلتر
    • تحليل فوريه کوتاه‌مدت
    • تحلیل LPC
    • تحلیل کپستروم
    • روش MFCC
  • بازشناسی گفتار
    • پيچيدگي‌ها
    • روش‌های ارزیابی
    • روش‌های بازشناسی گفتار
    • انطباق زماني پويا (DTW)
    • شبکه عصبي مصنوعي (ANN) و یادگیری عمیق
    • مدل مخفي مارکوف (HMM)
  • سنتز گفتار
    • روش‌ها و مسائل پردازش متن
    • مشکلات پردازش متن
    • تحليل نوايي
    • روش‌های توليد سيگنال گفتار (سنتز)
      • سنتز فرمنتي
      • سنتز پيوندي و انتخاب واحد (Unit Selection/Concatenative)
      • سنتز آماري پارامتري
      • سنتز مبتنی بر یادگیری عمیق
    • بهسازی گفتار
      • روش‌های بهسازی گفتار (تک کاناله)
      • شناخت نويز
      • معیارهای ارزیابی
      • روش تفريق طيفي
      • تخمين‌گر کمترين خطاي مربعات ميانگين (MMSE) (طیف: فیلتر وینر، اندازه طیف و لگاریتم اندازه طیف)
      • بهسازي گفتار مبتنی بر یادگیری (HMM و یادگیری عمیق)
    • کد کردن (کدینگ) گفتار
      • روش‌های خانواده PCM
      • روش CELP

Notice: ob_end_flush(): Failed to send buffer of zlib output compression (0) in /home/smj97ir/public_html/wp-includes/functions.php on line 5427