کتابخانه nltk در پایتون
کتابخانه NLTK (Natural Language Toolkit) یکی از محبوبترین ابزارهای پردازش زبان طبیعی (NLP) در پایتون است. این کتابخانه مجموعهای از ماژولها، دادهها (corpora) و الگوریتمها برای تحلیل متون، برچسبزنی دستوری، بازیابی اطلاعات و ساخت مدلهای پایه را فراهم میکند. NLTK بهخاطر مستندات کامل، آموزشها و سهولت استفاده برای پژوهشگران و دانشجویان بسیار مناسب است.
کاربردها و موارد استفاده
- پیشپردازش متن: توکنایز کردن، حذف توقفکلمات، ریشهیابی و لماتیزه کردن
- تحلیل دستوری: برچسبگذاری قسمکلام (POS tagging) و شناسایی موجودیتهای اسمی (NER)
- تحلیل آماری: توزیع فراوانی، همآیی (collocations) و concordance
- شبکههای معنایی: استفاده از WordNet برای یافتن مترادفها و روابط معنایی
- آموزش مدلهای پایه: طبقهبندی با Naive Bayes، استخراج ویژگی و پایپلاینهای ساده
نصب و راهاندازی
pip install nltk
python -m nltk.downloader popularدر خط اول NLTK نصب میشود و در خط دوم بستههای رایج (مانند punkt، stopwords، wordnet) دانلود میگردد. این روش برای شروع سریع مناسب است.
توکنایزینگ، حذف توقفکلمات و ریشهیابی
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
text = "NLTK is a powerful toolkit for natural language processing in Python."
tokens = word_tokenize(text)
stops = set(stopwords.words('english'))
filtered = [t for t in tokens if t.lower() not in stops]
ps = PorterStemmer()
stems = [ps.stem(t) for t in filtered]
print(tokens)
print(filtered)
print(stems)کد بالا متن را به توکنها تقسیم میکند، توقفکلمات انگلیسی را حذف میکند و سپس روی توکنهای باقیمانده ریشهیابی (stemming) انجام میدهد. اگر نیاز به دقت معنایی بیشتر دارید، بهجای ریشهیابی از لماتیزهکننده استفاده کنید.
لماتیزه کردن با POS مناسب (بهینهسازی)
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
from nltk import pos_tag, word_tokenize
def get_wordnet_pos(treebank_tag):
if treebank_tag.startswith('J'):
return wordnet.ADJ
elif treebank_tag.startswith('V'):
return wordnet.VERB
elif treebank_tag.startswith('N'):
return wordnet.NOUN
elif treebank_tag.startswith('R'):
return wordnet.ADV
else:
return wordnet.NOUN
text = "The striped bats are hanging on their feet and are happily eating fishes."
tokens = word_tokenize(text)
pos_tags = pos_tag(tokens)
wnl = WordNetLemmatizer()
lemmas = [wnl.lemmatize(tok, get_wordnet_pos(tag)) for tok, tag in pos_tags]
print(pos_tags)
print(lemmas)در این مثال از تابع کمکی برای تبدیل برچسبهای Treebank (خروجی pos_tag) به فرمت WordNet استفاده کردهایم تا لماتیزه دقیقتر انجام شود. این بهویژه برای افعال و صفات اهمیت دارد.
برچسبگذاری قسمکلام و شناسایی موجودیتها
from nltk import pos_tag, ne_chunk
from nltk.tokenize import word_tokenize
sentence = "Apple is looking at buying U.K. startup for $1 billion"
tokens = word_tokenize(sentence)
pos = pos_tag(tokens)
chunks = ne_chunk(pos)
print(pos)
print(chunks)این قطعه ابتدا توکنها را برچسبگذاری دستوری میکند و سپس ساختاری درختی برای موجودیتهای اسمی تولید میکند. خروجی ne_chunk میتواند موجودیتهایی مانند سازمانها، مکانها و اشخاص را مشخص کند.
کار با WordNet: مترادفها و مثالها
from nltk.corpus import wordnet as wn
synsets = wn.synsets('bank')
for s in synsets[:5]:
print(s.name(), s.definition())WordNet یک پایگاه معنایی است که برای هر کلمه مجموعهای از سینستها (synsets) شامل تعریف و مثال ارائه میدهد. این ابزار برای استخراج مترادفها، هایپرنیمها (hypernyms) و روابط مفید است.
خلاصه ماژولها و توابع کاربردی
| ماژول/تابع | کاربرد |
|---|---|
| tokenize | تقسیم متن به کلمات یا جملات |
| corpus (stopwords, wordnet) | دیتاستها و لغتنامههای آماده |
| stem, lemmatize | کاهش کلمات به ریشه یا صورت پایه |
| pos_tag, ne_chunk | تحلیل نحوی و شناسایی موجودیت |
| FreqDist, collocations | تحلیل آماری واژگان |
مثال عملی: طبقهبندی متن با Naive Bayes
import nltk
from nltk.corpus import movie_reviews
import random
documents = [(list(movie_reviews.words(fileid)), category)
for category in movie_reviews.categories()
for fileid in movie_reviews.fileids(category)]
random.shuffle(documents)
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words)[:2000]
def document_features(doc):
doc_words = set(w.lower() for w in doc)
return {f'contains({w})': (w in doc_words) for w in word_features}
feature_sets = [(document_features(d), c) for (d, c) in documents]
train_set, test_set = feature_sets[100:], feature_sets[:100]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))
classifier.show_most_informative_features(10)در این نمونه از دیتاست movie_reviews برای آموزش یک طبقهبند ساده Naive Bayes استفاده شد. ابتدا ویژگیهای رایج استخراج میشوند و سپس مدل آموزش داده شده و دقت آن اندازهگیری میشود. این روش برای پروتوتایپینگ سریع مفید است اما برای کاربردهای بزرگ معمولاً باید از ویژگیهای پیچیدهتر یا مدلهای پیشرفتهتر استفاده کرد.
نکات پیشرفته و بهترین شیوهها
- برای متنهای غیرانگلیسی منابع NLTK محدودتر است؛ در چنین مواردی از spaCy یا مدلهای اختصاصی زبان استفاده کنید.
- برای کار با حجم بزرگ داده، NLTK بهتنهایی کند است؛ تبدیل مراحل پیشپردازش به پردازش برداری یا استفاده از کتابخانههای موازیسازی پیشنهاد میشود.
- لماتیزهسازی با POS مناسب کیفیت را افزایش میدهد (همانطور که نشان داده شد).
- برای تولید ویژگی بهتر از n-grams، TF-IDF و واژههای از پیشآموزشدیده استفاده کنید.
نتیجهگیری
NLTK ابزار آموزشی و پژوهشی قدرتمندی برای پردازش زبان طبیعی در پایتون است. با داشتن مجموعهای از توکنایزرها، ابزارهای ریشهیابی و لماتیزه، منابع واژگانی مانند WordNet و امکانات ساده برای طبقهبندی، NLTK نقطه شروع عالی برای یادگیری و توسعه نمونههای اولیه است. با این حال برای پروژههای صنعتی و پردازش در مقیاس بزرگ ممکن است لازم باشد آن را با ابزارهای مدرنتر ترکیب کنید.
آیا این مطلب برای شما مفید بود ؟




