یک برنامه پایتون بنویسید که با استفاده از کتابخانه nltk یک متن ورودی را توکنایز کند، کلمات توقف را حذف کرده و فراوانی هر کلمه را به صورت یک دیکشنری بازگرداند.

Question

برای حل این مسئله از توکن‌سازی nltk (مثل word_tokenize) و لیست کلمات توقف nltk استفاده کنید؛ در ابتدا با nltk.download('punkt') و nltk.download('stopwords') منابع لازم را دانلود کنید. متن را به حروف کوچک تبدیل، علائم نگارشی را حذف یا فیلتر کنید، سپس با collections.Counter یا یک دیکشنری ساده تعداد هر کلمه را بشمارید. اگر متن به زبانی غیر از انگلیسی است، می‌توانید لیست کلمات توقف دلخواه بسازید یا قب...

هوشیار · Accepted Answer

توضیح مسئله: هدف نوشتن یک برنامه پایتون است که با استفاده از کتابخانه nltk متن ورودی را توکنایز کند، کلمات توقف را حذف نماید و در نهایت فراوانی (تعداد تکرار) هر کلمه را به‌صورت یک دیکشنری باز‌گرداند. مراحل اصلی عبارت‌اند از: دانلود منابع لازم (punkt و stopwords)، تبدیل متن به حروف کوچک، توکنایز با word_tokenize، حذف علائم نگارشی و کلمات توقف، (اختیاری) اعمال stemmer برای یکسان کردن شکل‌های مشتق‌شد...

1 پاسخ