یک برنامه پایتون بنویسید که یک متن ورودی را با استفاده از کتابخانه nltk توکنایز، پاکسازی (حذف حروف بزرگ و علائم نگارشی و حذف stopwords) کند و پنج کلمه پرتکرار را همراه با فراوانیشان نمایش دهد.
7.0 بازدید آخرین ویرایش در 200 روز قبل ساعت 17:37 0.0
برای حل این مسئله از Python و کتابخانه nltk استفاده کنید: ابتدا بستههای مورد نیاز مثل 'punkt' و 'stopwords' را با nltk.download دانلود کنید، سپس با nltk.word_tokenize متن را به توکنها تبدیل کنید، همه حروف را به حروف کوچک تبدیل و با توابع یا regex علائم نگارشی را حذف کنید، stopwords فارسی یا انگلیسی را از توکنها کنار بگذارید و با collections.Counter فراوانی هر کلمه را محاسبه کرده و پنج کلمه پرتکرار را چاپ کنید. نکات: نرمالسازی (حذف اعداد یا شکلدهی واحدها) و استفاده از lemmatizer یا stemmer میتواند کیفیت نتایج در مسائل یادگیری ماشین افزایش دهد؛ برای متنهای فارسی ممکن است نیاز به مجموعه stopwords مناسب یا پردازش پیشرفتهتر باشد.
1 پاسخ
جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من
در حال بارگیری...
برای ارسال پاسخ باید با حساب کاربری وارد شوید.
ورود به حساب کاربری
برای این کار، مطمئن شوید بستههای nltk مانند punkt و stopwords دانلود شدهاند. توکنایز کردن با nltk.word_tokenize برای فارسی معمولاً دقیق نیست، پس بهتر است از ابزارهای فارسی مانند Hazm یا تقسیمبندی با regex برای حذف علائم استفاده کنید. پس از تبدیل به حروف کوچک و حذف stopwords، با collections.Counter فراوانی واژهها را محاسبه کنید و پنج واژه پرتکرار را به همراه فراوانیشان نمایش دهید. توجه کنید نرمالسازی مانند حذف اعداد یا ریشهسازی میتواند کیفیت نتایج را بهبود دهد و برای فارسی ممکن است نیاز به مجموعه stopwords مناسب باشد.
گزارش