یک برنامه پایتون بنویسید که با استفاده از کتابخانه NLTK یک متن ورودی را توکنیزه کند، حروف را کوچک کند، توقف‌واژه‌های انگلیسی را حذف کند و ۱۰ کلمه پُرتکرار را همراه با فراوانی‌شان نمایش دهد.

8.0 بازدید آخرین ویرایش در 201 روز قبل ساعت 03:15

0.0

برای حل این مسئله از NLTK استفاده کنید: ابتدا بسته‌های punkt و stopwords را دانلود کنید، سپس text را با word_tokenize به توکن تبدیل کرده، همه حروف را به lower تبدیل و توکن‌های غیرحرفی را حذف کنید؛ بعد با لیست stopwords انگلیسی، توقف‌واژه‌ها را فیلتر کنید و با استفاده از collections.Counter یا nltk.FreqDist ده کلمهٔ پرتکرار را نمایش دهید. این تمرین مناسب مبتدیان در حوزه‌های Machine Learning/AI و Scientific Computing است — دقت کنید که دانلود منابع NLTK قبل از اجرا ضروری است و برای نتایج بهتر بهتر است پیش‌پردازش‌هایی مثل حذف علائم نگارشی و نرمال‌سازی حروف انجام شود.

توسط پژوهشگر در 201 روز قبل ساعت 03:15
دسته بندی ها: Python Python for beginner
reyhaneh در 201 روز قبل ساعت 07:02

برای شروع، پس از دانلود بسته‌های punkt و stopwords با nltk.download، متن را با word_tokenize توکن کنید و تمام حروف را به lowercase تبدیل کنید. توکن‌هایی که فقط حروف نیستند را با استفاده از isalpha یا فیلترهای مشابه حذف کنید و سپس با استفاده از لیست stopwords انگلیسی، توقف‌واژه‌ها را فیلتر کنید. برای نمایش 10 کلمهٔ پرتکرار از collections.Counter یا nltk.FreqDist با استفاده از most_common(10) استفاده کنید. علاوه بر این، می‌توانید پیش‌پردازش‌های بهبوددهنده‌ای مانند حذف علائم نگارشی و نرمال‌سازی بیشتر حروف انجام دهید و مطمئن شوید دانلود منابع NLTK قبل از اجرا موفق است.

گزارش

1 پاسخ

جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من

در حال بارگیری...
ورود به حساب کاربری