با استفاده از کتابخانه NLTK در پایتون، برنامه‌ای بنویسید که یک متن ساده (مثلاً انگلیسی) را توکنایز کند، حروف را به کوچک تبدیل کند، علائم نگارشی و کلمات توقف را حذف کرده و پنج کلمهٔ پرتکرار را نمایش دهد.

6.0 بازدید آخرین ویرایش در 199 روز قبل ساعت 03:00

0.0

برای حل این مسئله ابتدا NLTK را نصب کنید و داده‌های مورد نیاز مانند punkt و stopwords را دانلود نمایید؛ سپس متن ورودی را به حروف کوچک تبدیل کنید، با nltk.word_tokenize توکن‌ها را استخراج کنید و با حذف علائم نگارشی (مثلاً با استفاده از string.punctuation یا یک الگوی regex) و فیلتر کردن توکن‌های موجود در لیست stopwords، تنها کلمات معنی‌دار را نگه دارید. در نهایت با استفاده از nltk.FreqDist یا collections.Counter فراوانی کلمات را محاسبه کرده و پنج کلمهٔ پرتکرار را با مقدارشان نمایش دهید؛ می‌توانید برای نمایش بهتر از matplotlib استفاده کنید یا خروجی را به‌صورت مرتب چاپ کنید.

توسط پژوهشگر در 199 روز قبل ساعت 03:00
دسته بندی ها: Python Python for beginner
sara در 199 روز قبل ساعت 07:49

برای پیاده‌سازی، ابتدا nltk.download('punkt') و nltk.download('stopwords') را اجرا کنید تا منابع لازم فراهم شوند. پس از تبدیل متن به حروف کوچک و توکنایز با nltk.word_tokenize، با حذف علائم نگارشی (مثلاً با string.punctuation یا regex) و فیلترکردن stopwords، واژگان معنی‌دار باقی می‌مانند. برای نمایش پنج کلمهٔ پرتکرار می‌توانید از nltk.FreqDist استفاده کنید یا از collections.Counter، و نتیجه را مرتب چاپ کنید. اگر متن طولانی است، می‌توانید از نسخهٔ سریع‌تر Counter و یا نمودار با matplotlib استفاده کنید اما برنامه‌ریزی ساده‌تری هم کافی است.

گزارش

1 پاسخ

جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من

در حال بارگیری...
ورود به حساب کاربری