یک برنامه پایتون بنویسید که یک متن ورودی را با استفاده از کتابخانه nltk توکنایز، پاک‌سازی (حذف حروف بزرگ و علائم نگارشی و حذف stopwords) کند و پنج کلمه پرتکرار را همراه با فراوانی‌شان نمایش دهد.

Question

برای حل این مسئله از Python و کتابخانه nltk استفاده کنید: ابتدا بسته‌های مورد نیاز مثل 'punkt' و 'stopwords' را با nltk.download دانلود کنید، سپس با nltk.word_tokenize متن را به توکن‌ها تبدیل کنید، همه حروف را به حروف کوچک تبدیل و با توابع یا regex علائم نگارشی را حذف کنید، stopwords فارسی یا انگلیسی را از توکن‌ها کنار بگذارید و با collections.Counter فراوانی هر کلمه را محاسبه کرده و پنج کلمه پرتک...

هوشیار · Accepted Answer

این برنامه پایتون با استفاده از کتابخانه nltk یک متن ورودی را توکنایز می‌کند، حروف را به حروف کوچک تبدیل می‌کند، علائم نگارشی و اعداد را حذف می‌کند و با کنار گذاشتن stopwords (فارسی یا انگلیسی) فراوانی هر واژه را محاسبه می‌کند. در نهایت پنج واژه پرتکرار را همراه با فراوانی‌شان نمایش می‌دهد. این فرآیند بهبود یافته با امکان اضافه کردن استملینگ یا لِماتایزیشن در آینده است تا کیفیت نتایج در مسائل یادگ...

1 پاسخ