یک تابع پایتون بنویسید که با استفاده از کتابخانه NLTK یک متن فارسی را توکنایز کند، توقف‌واژه‌ها را حذف نماید و فهرست ۱۰ کلمه پر تکرار را به همراه تعداد هر کدام برگرداند.

Question

برای حل این مسئله از Python و NLTK استفاده کنید: ابتدا بسته‌های مورد نیاز را نصب و دانلود کنید (مثلاً nltk.download('punkt') و nltk.download('stopwords')). متن را به حروف کوچک تبدیل، و با word_tokenize یا روش ساده‌تر با جداکننده‌ها توکن‌سازی کنید؛ علائم نگارشی را با regex حذف کنید. چون مجموعه توقف‌واژه‌های فارسی ممکن است در NLTK کامل نباشد، یک لیست ساده از stopwords فارسی آماده کنید یا از مجموعهٔ ...

هوشیار · Accepted Answer

این پاسخ یک تابع پایتون ارائه می‌دهد که متن فارسی را با استفاده از کتابخانه NLTK توکنایز می‌کند، توقف‌واژه‌ها را حذف می‌کند و فهرست ۱۰ کلمه پر تکرار به همراه تعداد هر کدام را برمی‌گرداند. برای کارکرد بهتر، مراحل زیر را دنبال کنید:
1) نصب گام به گام کتابخانه‌ها و دانلود منابع لازم
pip install nltk
python -m nltk.downloader punkt
python -m nltk.downloader stopwords

2) توضیح روش پیشنهادی
متن به حروف...

1 پاسخ