کتابخانه gensim در پایتون
gensim یکی از برجستهترین کتابخانههای متنمحور در اکوسیستم پایتون است که برای مدلسازی موضوعی (topic modeling)، بازنمایی برداری کلمات و اسناد، و محاسبه شباهتها طراحی شده است. این کتابخانه برای کار با مجموعه دادههای بزرگ و جریانی (streaming) بهینه شده و قابلیت استفاده بدون بارگزاری کامل دادهها در حافظه را فراهم میکند.
ویژگیهای کلیدی gensim
- پیادهسازیهای استاندارد: Word2Vec، FastText، Doc2Vec، LDA، TF-IDF و مدلهای شباهت.
- کار با دادههای بزرگ: پردازش بهصورت streaming و ذخیرهسازی مدلها روی دیسک.
- سازگاری با فرمتهای مختلف: corpora، mm/svmlight، و تبدیل بین قالبها.
- پرفورمنس و پاراللسازی: پشتیبانی از multi-worker در آموزش مدلهای برداری.
موارد کاربردی (Use Cases)
- استخراج موضوعات از مجموعه مقالات با LDA یا HDP.
- تبدیل کلمات به بردار عددی با Word2Vec/ FastText برای ورودی مدلهای یادگیری ماشین.
- جستجوی مشابهت اسناد و بازیابی اطلاعات (Information Retrieval).
- خلاصهسازی، تحلیل احساسات بهکمک ویژگیهای برداری و خوشهبندی متون.
مفاهیم پایه و جریان کار
پیشپردازش متن
قبل از آموزش مدلها باید متنها توکنیزه، عادیسازی (lowercase)، حذف توقفواژهها و در صورت لزوم lemmatize شوند. gensim خودش ابزارهای محدودی برای پیشپردازش دارد ولی اغلب همراه با nltk یا spaCy استفاده میشود.
from gensim.utils import simple_preprocess
from gensim.parsing.preprocessing import STOPWORDS
def preprocess(text):
return [token for token in simple_preprocess(text) if token not in STOPWORDS]در کد بالا تابع simple_preprocess توکنسازی و پاکسازی اولیه را انجام میدهد و حذف توقفواژهها با مجموعه پیشفرض gensim صورت میگیرد.
نمایش برداری: TF-IDF و Dictionary/Corpus
برای مدلهای topic مانند LDA ابتدا باید دیکشنری (واژگان) و کورپوس (نمایش شمارشی) بسازید و سپس TF-IDF یا بُردار شمارشی را تولید کنید.
from gensim import corpora
texts = [preprocess(doc) for doc in documents]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]در این بخش dictionary نگاشت id-to-word را میسازد و doc2bow هر سند را به لیست زوج (word_id, count) تبدیل میکند که ورودی استاندارد برای LDA و TF-IDF در gensim است.
آموزش Word2Vec — نمونه عملی
from gensim.models import Word2Vec
# texts: لیست جملات که هر کدام لیستی از توکنهاست
model = Word2Vec(sentences=texts, vector_size=100, window=5, min_count=5, workers=4, sg=1, epochs=5)
model.save("word2vec.model")
# استفاده: بردار یک کلمه
vec = model.wv['مثال']در این مثال از پارامترهای مهم استفاده شدهاند: vector_size طول بردار، window فاصله context، min_count حداقل فرکانس کلمه برای دخیل شدن، workers تعداد threadها، sg=1 برای skip-gram (و sg=0 برای CBOW) و epochs تعداد ایپاکها. سپس مدل ذخیره میشود و با مدل.wv میتوان بردار کلمه را گرفت.
نکات بهینهسازی Word2Vec
- برای دیتاستهای کوچک مقدار min_count را پایین بیاورید؛ برای دیتاست بزرگ از negative sampling و subsampling استفاده کنید.
- برای کیفیت بهتر بردارها epochs را افزایش دهید و از learning rate مناسب استفاده کنید.
- اگر دقت بیشتری روی ریشههای کلمات لازم است از پیشپردازش بهتر یا استفاده از FastText برای نرمالسازی زیرکلمهها بهره ببرید.
مدل موضوعی با LDA
gensim یک پیادهسازی کارا از LDA دارد که از الگوریتم online variational Bayes پشتیبانی میکند. مراحل شامل ساخت dictionary، تبدیل به قالب bow، و سپس آموزش مدل است.
from gensim.models import LdaModel
lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=10, passes=10, iterations=100, random_state=42)
lda.save("lda.model")
# مشاهده برترین کلمات هر موضوع
for i in range(10):
print(i, lda.print_topic(i, topn=10))پارامترهای کلیدی: num_topics تعداد موضوعها، passes تعداد عبور کامل از داده، iterations تکرارهای الگوریتم در هر pass و random_state برای قابلیت تکرارپذیری. خروجی print_topic کمک میکند تا موضوعها را تفسیر کنیم.
جستجوی شباهت و بازیابی اطلاعات
پس از تبدیل اسناد به بردارها (مثلاً tf-idf یا بردار موضوعی از LDA)، میتوان از ماژول similarities برای محاسبه شباهت کوساین استفاده کرد و اسناد مشابه را بازیابی کرد.
from gensim.similarities import MatrixSimilarity
from gensim.models import TfidfModel
tfidf = TfidfModel(corpus)
index = MatrixSimilarity(tfidf[corpus])
vec_bow = dictionary.doc2bow(preprocess("متن پرسوجو"))
sims = index[tfidf[vec_bow]]
print(sorted(list(enumerate(sims)), key=lambda x: -x[1])[:10])در این مثال ابتدا مدل TF-IDF ساخته شده، سپس یک ماتریس شباهت برای کل کورپوس ایجاد میشود. برای هر پرسوجو، آن را به فرم bow تبدیل و tf-idf میکنیم و شباهتهای کوساین را محاسبه میکنیم تا نزدیکترین اسناد را بیابیم.
مقایسه خلاصه مدلها
| مدل | کاربرد اصلی | مزایا |
|---|---|---|
| Word2Vec | بردار کلمه | بردارهای معنادار، سریع |
| FastText | بردار کلمه (با زیرکلمه) | عملکرد بهتر برای کلمات نادیده |
| Doc2Vec | بردار سند | نمایش مستقیم اسناد |
| LDA | مدل موضوعی | تفسیر موضوعها، مقیاسپذیر |
نکات عملی و تجربههای تخصصی
- برای مجموعههای بزرگ از streaming و مفهوم mmap، ذخیرهی مدلها بهصورت باینری و استفاده از load/load_fast استفاده کنید تا حافظه کاهش یابد.
- قبل از آموزش، کیفیت پیشپردازش مهمتر از تنظیمات پیشرفته است؛ حذف نویز، نرمالسازی و نگهداشتن قالبهای مفید (مثل entityها) تأثیر زیادی دارد.
- همواره مدل را با دادههای خارج از مجموعه آموزش آزمایش کنید (intrinsic و extrinsic evaluation) تا کیفیت بردارها بسنجید.
gensim یک ابزار قدرتمند و انعطافپذیر برای پژوهشگران و مهندسان متن است. با آشنایی با پارامترها و الگوهای پردازش، میتوان از آن برای طیف وسیعی از مسایل NLP در زبان فارسی و سایر زبانها بهره برد.
آیا این مطلب برای شما مفید بود ؟




