کتابخانه xgboost در پایتون

کتابخانه xgboost یکی از قدرتمندترین پیاده‌سازی‌های الگوریتم گریدبوستینگ (Gradient Boosting) است که برای مسائل طبقه‌بندی و رگرسیون کاربرد فراوانی دارد. این کتابخانه به‌خاطر سرعت، بهینگی حافظه، قابلیت استفاده از GPU و امکانات تنظیم دقیق (hyperparameter tuning) مورد توجه متخصصان داده و مهندسان یادگیری ماشین قرار گرفته است.

ویژگی‌های کلیدی xgboost

سرعت آموزش بالا و پیاده‌سازی بهینه با C++
پشتیبانی از CPU و GPU (tree_method=’gpu_hist’)
قابلیت کار با داده‌های گمشده و وزن‌دهی نمونه‌ها
API ساده برای استفاده با scikit-learn و نیز API اختصاصی DMatrix
امکاناتی مثل early stopping، feature importance و مدل‌های باینری/متنی

نصب و آماده‌سازی

برای نصب xgboost کافی است از pip استفاده کنید:

pip install xgboost

پس از نصب می‌توانید از دو API اصلی استفاده کنید: کلاس‌های scikit-learn مانند XGBClassifier/XGBRegressor یا API سطح پایین xgboost.DMatrix و xgboost.train.

مثال پایه‌ای با XGBClassifier (scikit-learn API)

from xgboost import XGBClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = XGBClassifier(n_estimators=100, learning_rate=0.1, max_depth=4, use_label_encoder=False, eval_metric='logloss')
model.fit(X_train, y_train, early_stopping_rounds=10, eval_set=[(X_test, y_test)], verbose=False)

y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))

این کد از دیتاست سرطان سینه sklearn استفاده می‌کند. ابتدا داده را به آموزش و تست تقسیم می‌کنیم، سپس یک XGBClassifier می‌سازیم و با قابلیت early_stopping آموزش می‌دهیم تا اگر روی مجموعه اعتبارسنجی بهبود متوقف شد، از بروز بیش‌برازش جلوگیری شود. در انتها دقت مدل محاسبه می‌شود.

مثال پیشرفته: استفاده از DMatrix و xgboost.train

import xgboost as xgb
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

X, y = load_boston(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

params = {
    'objective': 'reg:squarederror',
    'eta': 0.1,
    'max_depth': 5,
    'subsample': 0.8,
    'colsample_bytree': 0.8
}

evallist = [(dtest, 'eval'), (dtrain, 'train')]
bst = xgb.train(params, dtrain, num_boost_round=500, evals=evallist, early_stopping_rounds=20)
preds = bst.predict(dtest)
print("RMSE:", mean_squared_error(y_test, preds, squared=False))

در این مثال از API سطح پایین xgboost استفاده شده است. داده‌ها به DMatrix تبدیل می‌شوند که قالب بهینه‌ای برای xgboost است. پارامترها در دیکشنری params مشخص شده‌اند و با xgb.train مدل آموزش داده می‌شود. ارزیابی به‌صورت هم‌زمان روی مجموعه ارزیابی انجام می‌شود و early_stopping_rounds برای جلوگیری از آموزش اضافی استفاده شده است.

تنظیم ابرپارامترها (Hyperparameter Tuning)

تنظیم صحیح پارامترها می‌تواند تفاوت زیادی در عملکرد ایجاد کند. پارامترهای مهم عبارت‌اند از: learning_rate (یا eta)، n_estimators، max_depth، subsample، colsample_bytree، gamma، و scale_pos_weight برای داده‌های نامتعادل.

from sklearn.model_selection import RandomizedSearchCV
from xgboost import XGBClassifier
import numpy as np

param_dist = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [3, 5, 7],
    'subsample': [0.6, 0.8, 1.0],
    'colsample_bytree': [0.6, 0.8, 1.0]
}

xgb_clf = XGBClassifier(use_label_encoder=False, eval_metric='logloss')
rs = RandomizedSearchCV(xgb_clf, param_dist, n_iter=20, scoring='accuracy', cv=3, verbose=1, n_jobs=-1)
rs.fit(X_train, y_train)
print("Best params:", rs.best_params_)

این قطعه کد از RandomizedSearchCV استفاده می‌کند تا فضای پارامتری را با هزینه محاسباتی کمتر نسبت به GridSearch کاوش کند. با cv تقاطع‌صلی (cross-validation) استفاده شده و بهترین پارامترها بازگردانده می‌شوند.

عملکرد و نکات عملی

مدیریت داده‌های گمشده: xgboost قادر به کار با مقادیر NaN است و مسیر مناسب را به‌طور خودکار یاد می‌گیرد.
داده‌های نامتعادل: از پارامتر scale_pos_weight یا استفاده از نمونه‌برداری (sampling) بهره ببرید.
استفاده از GPU: برای دیتاست‌های بزرگ از tree_method=’gpu_hist’ استفاده کنید تا سرعت آموزش به‌طرز چشمگیری افزایش یابد.
مقادیر پیش‌فرض: همیشه قبل از تغییر پارامترها با مقادیر پیش‌فرض امتحان کنید و سپس بهینه‌سازی کنید.

جدول پارامترهای مهم

پارامتر	هدف	توصیه
learning_rate (eta)	سرعت یادگیری	مقادیر کوچک مانند 0.01-0.1 همراه با n_estimators بالا
n_estimators	تعداد درخت‌ها	با learning_rate کمتر افزایش دهید
max_depth	عمق هر درخت	برای جلوگیری از overfit معمولاً 3-10
subsample	نمونه‌برداری سطرها	0.5-0.9 برای کاهش واریانس
colsample_bytree	نمونه‌برداری ستون‌ها	0.5-1.0 برای تنوع‌بخشی در هر درخت

قابلیت‌های توضیح‌پذیری (Explainability)

xgboost ابزارهایی برای بررسی feature importance ارائه می‌دهد. علاوه بر آن می‌توان از SHAP برای تحلیل دقیق‌تر اثر هر ویژگی روی پیش‌بینی‌ها استفاده کرد که در پروژه‌های حساس به تبیین مدل بسیار مفید است.

مقایسه با سایر الگوریتم‌ها

XGBoost در مقابل LightGBM: هر دو سریع هستند؛ LightGBM ممکن است در دیتاست‌های خیلی بزرگ سریع‌تر باشد اما XGBoost پایداری و مستندسازی خوبی دارد.
در مقایسه با Random Forest: XGBoost معمولاً دقت بالاتری دارد ولی حساس‌تر به تنظیم پارامترها است.

نتیجه‌گیری

کتابخانه xgboost در پایتون یک ابزار بسیار قدرتمند برای مسائل یادگیری ماشین است که ترکیبی از سرعت، انعطاف‌پذیری و امکانات تنظیم دقیق را ارائه می‌دهد. با استفاده از APIهای sklearn و DMatrix می‌توانید به‌راحتی مدل‌های قوی‌ای تولید کنید و با تکنیک‌هایی مانند early stopping، regularization و hyperparameter tuning از آن‌ها بهینه‌ترین خروجی را دریافت کنید.

آیا این مطلب برای شما مفید بود ؟

خیر

بله