با استفاده از کتابخانه NLTK در پایتون، برنامهای بنویسید که یک متن ساده (مثلاً انگلیسی) را توکنایز کند، حروف را به کوچک تبدیل کند، علائم نگارشی و کلمات توقف را حذف کرده و پنج کلمهٔ پرتکرار را نمایش دهد.
6.0 بازدید آخرین ویرایش در 199 روز قبل ساعت 03:00 0.0
برای حل این مسئله ابتدا NLTK را نصب کنید و دادههای مورد نیاز مانند punkt و stopwords را دانلود نمایید؛ سپس متن ورودی را به حروف کوچک تبدیل کنید، با nltk.word_tokenize توکنها را استخراج کنید و با حذف علائم نگارشی (مثلاً با استفاده از string.punctuation یا یک الگوی regex) و فیلتر کردن توکنهای موجود در لیست stopwords، تنها کلمات معنیدار را نگه دارید. در نهایت با استفاده از nltk.FreqDist یا collections.Counter فراوانی کلمات را محاسبه کرده و پنج کلمهٔ پرتکرار را با مقدارشان نمایش دهید؛ میتوانید برای نمایش بهتر از matplotlib استفاده کنید یا خروجی را بهصورت مرتب چاپ کنید.
1 پاسخ
جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من
در حال بارگیری...
برای ارسال پاسخ باید با حساب کاربری وارد شوید.
ورود به حساب کاربری
برای پیادهسازی، ابتدا nltk.download('punkt') و nltk.download('stopwords') را اجرا کنید تا منابع لازم فراهم شوند. پس از تبدیل متن به حروف کوچک و توکنایز با nltk.word_tokenize، با حذف علائم نگارشی (مثلاً با string.punctuation یا regex) و فیلترکردن stopwords، واژگان معنیدار باقی میمانند. برای نمایش پنج کلمهٔ پرتکرار میتوانید از nltk.FreqDist استفاده کنید یا از collections.Counter، و نتیجه را مرتب چاپ کنید. اگر متن طولانی است، میتوانید از نسخهٔ سریعتر Counter و یا نمودار با matplotlib استفاده کنید اما برنامهریزی سادهتری هم کافی است.
گزارش