یک برنامه پایتون بنویسید که با استفاده از کتابخانه NLTK یک متن ورودی را توکنیزه کند، حروف را کوچک کند، توقفواژههای انگلیسی را حذف کند و ۱۰ کلمه پُرتکرار را همراه با فراوانیشان نمایش دهد.
8.0 بازدید آخرین ویرایش در 201 روز قبل ساعت 03:15 0.0
برای حل این مسئله از NLTK استفاده کنید: ابتدا بستههای punkt و stopwords را دانلود کنید، سپس text را با word_tokenize به توکن تبدیل کرده، همه حروف را به lower تبدیل و توکنهای غیرحرفی را حذف کنید؛ بعد با لیست stopwords انگلیسی، توقفواژهها را فیلتر کنید و با استفاده از collections.Counter یا nltk.FreqDist ده کلمهٔ پرتکرار را نمایش دهید. این تمرین مناسب مبتدیان در حوزههای Machine Learning/AI و Scientific Computing است — دقت کنید که دانلود منابع NLTK قبل از اجرا ضروری است و برای نتایج بهتر بهتر است پیشپردازشهایی مثل حذف علائم نگارشی و نرمالسازی حروف انجام شود.
1 پاسخ
جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من
در حال بارگیری...
برای ارسال پاسخ باید با حساب کاربری وارد شوید.
ورود به حساب کاربری
برای شروع، پس از دانلود بستههای punkt و stopwords با nltk.download، متن را با word_tokenize توکن کنید و تمام حروف را به lowercase تبدیل کنید. توکنهایی که فقط حروف نیستند را با استفاده از isalpha یا فیلترهای مشابه حذف کنید و سپس با استفاده از لیست stopwords انگلیسی، توقفواژهها را فیلتر کنید. برای نمایش 10 کلمهٔ پرتکرار از collections.Counter یا nltk.FreqDist با استفاده از most_common(10) استفاده کنید. علاوه بر این، میتوانید پیشپردازشهای بهبوددهندهای مانند حذف علائم نگارشی و نرمالسازی بیشتر حروف انجام دهید و مطمئن شوید دانلود منابع NLTK قبل از اجرا موفق است.
گزارش