آشنايي با زبانشناسی رايانشی
نيمسال دوم 1401-1400
معرفی
تعداد واحد: 3 پیشنیاز: برنامهسازي رايانهاي، رياضيات عمومي و آمار
نوع : نظری
زمان و محل کلاس: شنبه و دوشنبه، ساعت 10:00 الی 12:00، سامانه eLearn یا دانشکده علوم و فنون نوین
مدرس: دکتر هادی ویسی، دانشکده علوم و فنون نوین، دانشگاه تهران (پست الکترونیکی: h.veisi@ut.ac.ir)
دستیار آموزشی: امیدرضا بهرامیان (or.bahramian@gmail.com)
شرح درس
درس آشنايي با زبانشناسی رايانشی شامل مروری بر مفاهیم پایه زبانشناسی رایانشی مانند پردازش و پالایش متن (واحدسازی و نرمالسازي)، تحلیل ساختواژی (مورفولوژي)، مدلسازي زباني، گرامر و تجزيه نحوي، برچسپزنی اجرای کلام، مبانی پردازش سیگنال، و نمونه کاربردهای این حوزه مانند بازیابی اطلاعات، تشخیص گفتار، سنتز گفتار و ترجمه ماشینی است.
در این درس، اصول و روشهای زبانشناسی رايانشی پوشش داده میشوند و به همراه آن، تمرینهای متناسب که عموماً به صورت عملی و پیادهسازی است، صورت میگیرد.
منابع
1- هادی ویسی، مصطفی صالحی، وحید رنجبر بافقی، الما جعفری صدر، فرناز صادقی، محمد بحرانی، پردازش زبان و گفتـار: مقدمهای بر پردازش زبان طبیعی، زبانشناسی رایانشی و پردازش گفتار، نویسه پارسی، 1400
2- Daniel Jurafsky, James Martin, Speech and Language Processing, 2nd Edition, Prentice Hall, 2009.
3- James Allen, Natural Language Understanding, 1995.
4- Ruslan Mitkov, The Oxford Handbook of Computational Linguistics, 2003.
5- Igor Bolshakov, Alexander Gelbukh, Computational Linguistics, Models, Resources, Applications, 2004.
Slides Download Links
Scores
Dear students, by having your student number, you can see the grades related to your homework and midterm exam.
Attempts have been made to calculate the scores with the utmost accuracy and fairness.
To view each section, click on its title, then Download.
نمرهدهی
توضیح |
وزن |
عنوان |
بعد از هر موضوع (وزن تمرینها برابر نیست) | 55% | تمرین |
در شرایط غیرحضوری کلاسها ندارم |
– |
آزمونک (کویز) |
دوشنبه 1401/02/05 ساعت 10:00 | 20% | امتحان میانترم |
از کل مطالب درس، مطابق برنامه دانشگاه در صورت داشتن آزمونک وزن این آزمون 20% خواهد بود |
25% | امتحان پایانترم |
موضوع اختیاری، تعیین موضوع تا شنبه 1401/02/05 تحویل پروژه: اولین دوشنبه بعد از آخرین امتحان پایانترم |
15% | پروژه (نمره اضافی) |
پاسخ دادن به سوالات حین تدریس و مشارکت در بحثهای کلاس | 5% | حضور و مشارکت کلاس (نمره اضافی) |
همانطور که مشخص است، بخش عمده نمره به تمرینها و پروژه اختصاص داده شده است، لذا جهت موفقیت، همراهی دانشجو در طول ترم و یادگیری مستمر با انجام به موقع تمرینها، لازم است.
سیاستهای درس
1. تمرین: برای هر بخش (موضوع)، تعدادی تمرین در نظر گرفته شده است که باید در مهلتهای مقرر شده تحویل شود. همفکری و همکاری در یافتن پاسخ سوالها نه تنها بلامانع است، بلکه مورد حمایت نیز است، اما پاسخ هر دانشجو باید توسط خودش و به صورت مستقل نوشته شود و در صورتی که کپی بودن یکی یا چند مورد از پاسخ سوالهای یک تمرین مشخص شود، کل نمره آن تمرین در نظر گرفته نمیشود. تمرینهای دارای پیادهسازی، باید هم شامل کدها و هم شامل گزارش مربوطه باشد (ارسال گزارش یا کد به تنهایی، شامل نمره نمیشود).
ارسال پاسخ تمرینها: تنها به صورت الکترونیکی و به ایمیل استاد درس است. تحویل کاغذی نیاز نیست و در صورت نوشتن پاسخ تمرینهای حل شدنی روی کاغذ، تصویر آن را ارسال کنید. همه مطالب و فایلهای مرتبط با یک تمرین را در یک فایل فشرده شده ارسال کنید. فرمت نامگذاری فایل ارسالی به صورت زیر است (لطفا از ارسال فایل با اسمهایی مانند New Folder.rar یا HW.rar خودداری کنید):
CL_YourFamilyName_YourStNo_HW#
که در آن Family بیانگر نامخانودگی دانشجو، StNo شماره دانشجویی و # شماره تمرین است. مثلا پاسخ تمرین شماره 1 توسط آقای/خانم احمدی با شماره دانشجویی 830496001 به صورت CL_Ahmadi_830496001_HW1.rar است.
تاخیر در تحویل: تحویل به موقع پاسخ تمرینها از موارد ضرروی است و پاسخها باید حداکثر تا ساعت 23:59 تاریخ تعیین شده ارسال شود. در صورت داشتن تاخیر در ارسال پاسخها، به ازای هر یک ساعت تاخیر (از یک ثانیه تا 60 دقیقه!) به میزان 1% از نمره آن کسر میشود.
2. حضور و مشارکت: با توجه به غیرحضوری بودن کلاسها و عدم تمرکز برخی از دانشجویان (علیرغم حضور ظاهری در جلسه)، نیاز است دانشجویان با استاد در حین تدریس برای مشارکت در بحثها و پاسخدهی به سوالات همراهی کنند. این موضوع هر جلسه بررسی شده و جمع حضور و مشارکت افراد در کلاس به عنوان نمره این شاخص در نظر گرفته میشود.
3. آزمونک (کویز): در شرایط غیرحضوری بودن کلاسها آزمونک نداریم اما برای شرایط حضوری آزمونک در برخی از کلاسها خواهیم داشت که در این صورت از نمره امتحان پایانترم برای نمره این آزمون کم میشود.
4. امتحان میانترم: آزمون میانترم شامل مطالب تدریس شده تا زمان آزمون خواهد بود. در صورت غیرحضوری بودن آزمون، سیاستها و روالهای برگزاری آزمون به اطلاع رسانده میشود.
5. امتحان پایان ترم: این آزمون شامل کلیه مطالب تدریس شده (از جمله مطالب پوشش داده شده در آزمون میانترم) است. در صورت غیرحضوری بودن، جزئیات روال برگزاری آزمون پایانترم قبل از این آزمون اعلام میشود.
6. پروژه: برای این درس، هر دانشجو میتواند یک پروژه کاربردی جهت پیادهسازی انتخاب کرده و آن را در Python یا سایر زبانهای برنامهنویسی، پیاده کند. در انجام پروژه نیاز به نوآوری نبوده و کافیست پیادهسازی از یک پژوهش (مقاله، پایاننامه و …) موجود صورت پذیرد. علاوهبر کد برنامه، دادهها و یک گزارش مکتوب (به صورت تایپ شده) از دانشجویان تحویل گرفته میشود که باید شامل نتایج بدست آمده و تحلیلهای مربوطه باشد. تحویل پروژهها به صورت حضوری است.
هر دانشجو میتواند با هماهنگی استاد موضوع خود را انتخاب کرده و اعلام نماید. آخرین زمان تعیین موضوع پروژه در جدول نمرهدهی تعیین شده است. برخی موضوعات پیشنهادی عبارتنداز:
- پیادهسازی یک ریشهیاب برای فارسی
- برچسبزنی اجزای کلام فارسی با روشهای یادگیری ماشین
- تحلیل احساس در متون فارسی
7. مقاله: برای آن دسته از دانشجویانی که در موضوعهای مرتبط با درس، به ویژه در پروژه، کار علمی مناسبی انجام داده و به نتایج قابل انتشاری دست یافتهاند، میتوانند آن را در قالب یک مقاله منتشر کنند. این درس، شما را به نوشتن مقاله تشویق نمیکند! و نمره آن فقط به منظور ارج نهادن به تلاش افرادی است که بیشتر از بقیه کوشش داشته و دستاورد بهتری داشتهاند. بنابراین، در این درس نه تنها اجباری در نوشتن مقاله نیست و نمره آن مازاد بر نمره درس است، بلکه در هیچ شرایطی (در طول عمرتان!) نباید مقاله را به عنوان یک هدف در نظر بگیرید. مقاله باید محصول جانبی یک کار پژوهشی خوب باشد. لذا از نظر سیاستهای این درس، ننوشتن مقاله، بسیار پسندیدهتر از نوشتن آن به هر قیمتی است! نمره مقاله تنها به دانشجویانی تعلق میگیرد که قبل از ارسال نمرات درس به آموزش، مقاله خود را به مجله/کنفرانس ارسال کرده باشند. بدیهی است قبل از ارسال هر مقالهای نیاز به بررسی و تایید استاد درس وجود دارد. یادآوری میشود دانشجویانی که استاد راهنمای آنها مشخص شده است، لازم است همکاری با این درس در نوشتن مقاله را به اطلاع استاد خود برسانند.
8. بازنگری نمرهها و برگهها: دانشجویانی که درخواست دارند هر کدام از نمرات آنها بازنگری شود و یا برگههای خود را ببینند، در زمان تحویل پروژه درس این کار را انجام دهند.
9. تقلب و کپیبردای: هدف درس تمرین و یادگیری مطالب موردنظر توسط دانشجو در طول ترم است و لازم است تمام مطالب مربوط به تمرینها توسط خود دانشجو انجام شود. هرچند همکاری دانشجویان در حل مسائل درس توصیه میشود اما پاسخ نهایی سوالها باید توسط هر دانشجو به صورت مستقل نوشته شود. در صورتی که در هر شرایطی مشخص شود که تمام یا بخشی از مطالب توسط دانشجو آماده نشده و کپیبرداری مستقیم و بدون مرجع بوده است، تقلب تلقی شده و مطابق قوانین انضباطی دانشگاه با آن رفتار میشود.
سیلابس درس
معرفی زبانشناسی رایانشی و نمونههایی از کاربردهای پردازش زبان طبیعی
- واحدسازی (Tokenization)
- نرمالسازي (Normalization)
- مشکلات زبان فارسي و راهحلها
- تحلیل ساختواژی (مورفولوژي) (Morphological Analysis)
- انواع مورفولوژی
- عبارت باقاعده (Regular Expression)
- اتوماتای محدود (FSA: Finite State Automata)
- ریشهیابی بدون واژگان (Porter Stemmer)
- خطایاب املایی و روش Minimum Edit Distance
- مدلسازي زباني (Language Modeling)
- شمارش كلمات و قانون Zipf
- مدل n-gram
- هموارسازي (Smoothing)
- ارزيابي مدلهاي زباني
- برچسپزنی اجزای کلام (POS: Part-of-Speech tagging)
- کاربردها
- روشها
- مبتنی بر قاعده
- آماری و مبتنی بر مدل مخفی مارکوف (HMM)
- گرامر و تجزيه نحوي (Parsing)
- انواع گرامر
- الگوریتمهای تجزیه
- تجزیه CKY
- تجزیه Earley
- آواشناسی و مبانی پردازش سیگنال
- مروری بر بازشناسی گفتار
- پيچيدگيها
-
- انطباق زماني پويا (DTW)
- شبکه عصبي مصنوعي (ANN)
- مدل مخفي مارکوف (HMM)
- مروری بر تبدیل متن به گفتار (سنتز گفتار)
- روشها و مسائل پردازش متن
- روشهای تولید گفتار
- مروری بر ترجمه ماشینی