یک برنامه پایتون بنویسید که یک متن ورودی را با استفاده از کتابخانه nltk توکنایز، پاک‌سازی (حذف حروف بزرگ و علائم نگارشی و حذف stopwords) کند و پنج کلمه پرتکرار را همراه با فراوانی‌شان نمایش دهد.

7.0 بازدید آخرین ویرایش در 200 روز قبل ساعت 17:37

0.0

برای حل این مسئله از Python و کتابخانه nltk استفاده کنید: ابتدا بسته‌های مورد نیاز مثل 'punkt' و 'stopwords' را با nltk.download دانلود کنید، سپس با nltk.word_tokenize متن را به توکن‌ها تبدیل کنید، همه حروف را به حروف کوچک تبدیل و با توابع یا regex علائم نگارشی را حذف کنید، stopwords فارسی یا انگلیسی را از توکن‌ها کنار بگذارید و با collections.Counter فراوانی هر کلمه را محاسبه کرده و پنج کلمه پرتکرار را چاپ کنید. نکات: نرمال‌سازی (حذف اعداد یا شکل‌دهی واحدها) و استفاده از lemmatizer یا stemmer می‌تواند کیفیت نتایج در مسائل یادگیری ماشین افزایش دهد؛ برای متن‌های فارسی ممکن است نیاز به مجموعه stopwords مناسب یا پردازش پیشرفته‌تر باشد.

توسط پژوهشگر در 200 روز قبل ساعت 17:37
دسته بندی ها: Python Python for beginner
nima در 199 روز قبل ساعت 19:46

برای این کار، مطمئن شوید بسته‌های nltk مانند punkt و stopwords دانلود شده‌اند. توکنایز کردن با nltk.word_tokenize برای فارسی معمولاً دقیق نیست، پس بهتر است از ابزارهای فارسی مانند Hazm یا تقسیم‌بندی با regex برای حذف علائم استفاده کنید. پس از تبدیل به حروف کوچک و حذف stopwords، با collections.Counter فراوانی واژه‌ها را محاسبه کنید و پنج واژه پرتکرار را به همراه فراوانی‌شان نمایش دهید. توجه کنید نرمال‌سازی مانند حذف اعداد یا ریشه‌سازی می‌تواند کیفیت نتایج را بهبود دهد و برای فارسی ممکن است نیاز به مجموعه stopwords مناسب باشد.

گزارش

1 پاسخ

جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من

در حال بارگیری...
ورود به حساب کاربری