کتابخانه imgaug در پایتون
imgaug یک کتابخانه محبوب و قدرتمند برای تقویت دادههای تصویری (image augmentation) در پایتون است. این کتابخانه امکانات گستردهای برای اعمال تبدیلات هندسی، تغییر رنگ، اضافه کردن نویز، تغییر روشنایی و شبیهسازی شرایط واقعی مانند مه و باران فراهم میکند. imgaug با طراحی ماژولار و انطباقپذیر برای پروژههای یادگیری عمیق که نیاز به افزایش تنوع دادهها دارند، بسیار مناسب است.
چرا از imgaug استفاده کنیم؟
- پشتیبانی از انواع دادهها: تصاویر، جعبههای محدود (bounding boxes)، نقشههای سگمنتیشن و کلیدواژهها (keypoints).
- گستره وسیع Augmenterها: چرخش، مقیاس، برش، تغییر رنگ، افکتهای اشیاء، نویز و موارد فیزیکی مثل باران یا برف.
- قابلیت تعیین احتمال هر تبدیل و ترکیب گوناگون از تبدیلات با نحوههای متفاوت (Sequential, Sometimes, OneOf).
- قابلیت استفاده Deterministic برای بازتولید دقیق عملیات در آموزش و ارزیابی.
نصب و شروع سریع
نصب ساده است و معمولاً با pip انجام میشود:
pip install imgaug
بعد از نصب میتوانید با استفاده از numpy و OpenCV تصاویر را بارگذاری و تقویت کنید.
مثال پایه: یک Pipeline ساده
import imgaug.augmenters as iaa
import imageio
import numpy as np
image = imageio.imread('cat.jpg') # numpy array HxWxC
seq = iaa.Sequential([
iaa.Resize({"shorter-side": 256}),
iaa.Fliplr(0.5),
iaa.Affine(rotate=(-20, 20)),
iaa.AdditiveGaussianNoise(scale=0.05*255)
])
aug_image = seq(image=image)
در این مثال یک پائپلاین متوالی تعریف کردیم که تصویر را ابتدا تغییر اندازه میدهد، سپس با احتمال ۰.۵ آن را افقی برمیگرداند، چرخش تصادفی بین -۲۰ تا ۲۰ درجه اعمال میکند و در نهایت نویز گاوسی اضافه میکند. خروجی یک آرایه numpy است که قابل استفاده در مدلهای یادگیری عمیق میباشد.
کار با Bounding Boxes و Keypoints
برای مسائل تشخیص شیء و تشخیص نقاط کلیدی (مثل دستها یا صورت)، باید موقعیتها را همزمان با تصویر تغییر دهیم تا تراز بمانند. imgaug این امکانات را دارد:
from imgaug import BoundingBox, BoundingBoxesOnImage
bbs = BoundingBoxesOnImage([
BoundingBox(x1=30, y1=20, x2=200, y2=150)
], shape=image.shape)
seq_det = seq.to_deterministic() # همگام کردن تغییرات روی تصویر و bboxes
image_aug = seq_det.augment_image(image)
bbs_aug = seq_det.augment_bounding_boxes([bbs])[0]
در کد بالا، ابتدا یک BoundingBox تعریف میکنیم. با استفاده از to_deterministic() از همگامی بین تغییرات تصویر و بردارهای موقعیت اطمینان حاصل میکنیم، سپس هر دو را تقویت میکنیم تا جعبهها با تصویر تطابق داشته باشند.
مثال: ترکیب شرایط جوی و افکتها
seq_weather = iaa.Sequential([
iaa.OneOf([
iaa.Clouds(),
iaa.Rain(drop_size=(0.1, 0.3)),
iaa.Snowflakes(flake_size=(0.1, 0.5))
]),
iaa.Multiply((0.8, 1.2)), # تغییر روشنایی
iaa.GaussianBlur(sigma=(0.0, 1.5))
])
aug = seq_weather(image=image)
این پائپلاین به طور تصادفی یکی از افکتهای آبوهوا را انتخاب کرده، روشنایی را کمی تغییر میدهد و در نهایت بلور گاوسی اعمال میکند. این نوع augment برای دادههای خودروی خودران یا تشخیص در فضای باز بسیار مفید است.
نکات پیشرفته و بهینهسازی
- Deterministic vs Stochastic: برای آموزش مدل همراه با برچسبها یا جعبهها از to_deterministic استفاده کنید تا تغییرات روی همه اجزا یکسان باشند.
- سرعت و پردازش دستهای: اعمال augment روی GPU انجام نمیشود؛ برای افزایش سرعت از چند پردازش همزمان (multiprocessing) یا اعمال augment روی CPU قبل از ارائه به GPU استفاده کنید.
- توازن بین تنوع و واقعگرایی: augment بیش از حد میتواند نمونههای نامعقول تولید کند؛ بهتر است توزیعات پارامترها را محدود و بر اساس دادههای واقعی تنظیم کنید.
- ادغام با فریمورکها: میتوانید imgaug را با Keras, PyTorch (توسط تبدیل آرایهها به تنسورها) و TF data pipeline ترکیب کنید.
نمونه: استفاده در PyTorch DataLoader
class ImgAugDataset(torch.utils.data.Dataset):
def __init__(self, image_paths, transform):
self.image_paths = image_paths
self.transform = transform
def __len__(self):
return len(self.image_paths)
def __getitem__(self, idx):
img = imageio.imread(self.image_paths[idx])
img = self.transform(image=img)
img = img.astype('float32') / 255.0
img = np.transpose(img, (2,0,1))
return torch.tensor(img)
در این کد، یک Dataset برای PyTorch تعریف کردهایم که imgaug را به عنوان transform میپذیرد. توجه کنید که imgaug با آرایههای numpy کار میکند؛ بنابراین لازم است تبدیل به تنسور و نرمالسازی را بعد از augment انجام دهیم.
مقایسه کوتاه با سایر کتابخانهها
| ویژگی | imgaug | Albumentations | torchvision.transforms |
|---|---|---|---|
| پشتیبانی از Bounding Boxes | خوب | عالی | محدود |
| تنوع Augmenters | بسیار زیاد | زیاد | کلاسیک |
| کارایی | خوب (CPU) | بسیار خوب | بهینه برای PyTorch |
هر کتابخانه مزایا و معایب خاص خود را دارد؛ imgaug برای انعطافپذیری و طیف گسترده augmenters شناخته میشود، اما Albumentations معمولاً سریعتر و سازگارتر با PyTorch است.
چند نکته عملی و خطاهای رایج
- فرمت کانال رنگ: imgaug از آرایههای HxWxC استفاده میکند؛ برای تصاویر سیاهقلم (grayscale) ممکن است نیاز به reshape داشته باشید.
- حذف مقادیر خارج از محدوده: بعد از برخی عملیات (مثلاً Add) مقادیر را به بازه 0-255 کلپ کنید.
- همگامسازی RNG: برای باز تولید تجربیات، مقداردهی seed با np.random.seed و iaa.seed مفید است.
نتیجهگیری و پیشنهادات
imgaug یک ابزار بسیار کاربردی برای افزایش دادههای تصویری است که برای مسائل بینایی کامپیوتر در پروژههای تحقیقاتی و صنعتی مناسب است. با توجه به نیاز پروژه، میتوانید از آن بهتنهایی یا در ترکیب با دیگر کتابخانهها استفاده کنید. برای پروژههای زمان واقعی یا نیاز به پردازش سریع، بررسی و مقایسه با Albumentations و بهینهسازی pipeline ضروری است.
اگر نیاز دارید، میتوانم نمونههای بیشتر مرتبط با segmentation maps، keypoints پیشرفته یا ادغام با tf.data و Keras را نیز آماده کنم.
آیا این مطلب برای شما مفید بود ؟




