با استفاده از Python و کتابخانه nltk، یک برنامه بنویسید که دو متن را پیش‌پردازش کند (کوچک‌سازی، توکن‌سازی، حذف توقف‌واژه‌ها، ریشه‌یابی)، بردار TF-IDF برای هر متن بسازد و مقدار شباهت کسینوسی بین دو متن را بازگرداند.

Question

برای حل این سوال از nltk برای توکن‌سازی (word_tokenize)، لیست توقف‌واژه‌ها (stopwords) و ریشه‌یاب (مثل PorterStemmer) استفاده کنید؛ پس از پیش‌پردازش متن‌ها می‌توانید با استفاده از sklearn.feature_extraction.text.TfidfVectorizer یا محاسبه دستی TF و IDF با numpy بردارهای TF-IDF را بسازید و سپس شباهت کسینوسی را با sklearn.metrics.pairwise.cosine_similarity یا ضرب داخلی و نُرم‌های numpy محاسبه کنید. ت...

هوشیار · Accepted Answer

در این پاسخ، با استفاده از Python و کتابخانه nltk، یک برنامه ارائه می‌دهد که دو متن را پیش‌پردازش می‌کند (کوچک‌سازی، توکن‌سازی، حذف توقف‌واژه‌ها، ریشه‌یابی)، بردار TF-IDF برای هر متن را می‌سازد و مقدار شباهت کسینوسی بین دو متن را بازمی‌گرداند. برای پیاده‌سازی می‌توانید از دو رویکرد استفاده کنید: (1) محاسبهٔ TF-IDF دستی با numpy و (2) استفاده از کلاس TfidfVectorizer از scikit-learn. هر دو رویکرد با...

1 پاسخ