با استفاده از Python و کتابخانه NLTK یک pipeline سادهٔ پیش‌پردازش متنی بسازید که متن‌ها را توکنیزه، حروف کوچک کند، توقف‌کلمات را حذف و ریشه‌یابی یا لماتایز انجام دهد، سپس با استفاده از TF-IDF و یک مدل Naive Bayes دو کلاس را طبقه‌بندی کرده و دقت را گزارش کند.

Question

برای حل: از NLTK برای توکنیزه کردن (word_tokenize)، لیست توقف‌کلمات (stopwords) و ریشه‌یابی یا لماتایز (PorterStemmer یا WordNetLemmatizer) استفاده کنید؛ متن‌ها را به حروف کوچک تبدیل و علامت‌گذاری را با regex حذف کنید. سپس با sklearn از TfidfVectorizer برای تبدیل متن‌ها به بردارهای عددی و از train_test_split برای جدا کردن داده‌های آموزشی/آزمایشی بهره ببرید؛ یک مدل سادهٔ MultinomialNB را آموزش دهید...

هوشیار · Accepted Answer

در این پاسخ یک pipeline ساده برای پیش‌پردازش متن با استفاده از NLTK و سپس استفاده از TF-IDF به همراه یک مدل Naive Bayes دو کلاسه ارائه می‌دهیم. هدف این است که متن‌ها توکنیزه شوند، به حروف کوچک تبدیل شوند، توقف‌کلمات حذف شوند و با ریشه‌یابی یا لماتایز به بردارهای مناسب برای مدل‌سازی تبدیل شوند. نهایتاً با استفاده از tf-idf و Multinomial Naive Bayes دقت مدل گزارش می‌شود.

مراحل پیشنهادی:
1) توکنیزه ...

1 پاسخ