کتابخانه pydub در پایتون

کتابخانه Pydub یکی از ابزارهای محبوب و ساده در زبان برنامه‌نویسی پایتون برای پردازش فایل‌های صوتی است. این کتابخانه به شما اجازه می‌دهد تا بدون نیاز به دانش عمیق از مفاهیم دیجیتال سیگنال‌ها (DSP)، عملیات متنوعی مانند برش، ترکیب، تبدیل فرمت، تنظیم صدا و افکت‌گذاری را روی فایل‌های صوتی انجام دهید.

در این مقاله به‌صورت گام‌به‌گام با ویژگی‌ها، کاربردها و بهترین روش‌های استفاده از Pydub آشنا می‌شویم و مثال‌های عملی را برای درک بهتر منطق برنامه‌نویسی ارائه می‌دهیم.

۱. نصب و راه‌اندازی Pydub

برای استفاده از Pydub، ابتدا باید آن را نصب کنید. این کتابخانه از FFmpeg به عنوان موتور اصلی برای پردازش فایل‌های صوتی استفاده می‌کند؛ بنابراین نصب هر دو ضروری است.

pip install pydub

سپس باید FFmpeg را نصب کنید. در سیستم‌عامل‌های مختلف می‌توانید از روش‌های زیر استفاده کنید:

در ویندوز: دانلود از ffmpeg.org و اضافه کردن مسیر آن به PATH
در لینوکس: اجرای دستور sudo apt install ffmpeg
در macOS: استفاده از دستور brew install ffmpeg

پس از نصب، می‌توانید با اجرای کد زیر صحت عملکرد را بررسی کنید:

from pydub import AudioSegment
sound = AudioSegment.from_file("test.mp3", format="mp3")
print(len(sound))

در اینجا، فایل test.mp3 بارگذاری شده و طول آن (بر حسب میلی‌ثانیه) چاپ می‌شود. اگر خطایی رخ ندهد، یعنی کتابخانه به درستی نصب شده است.

۲. بارگذاری و ذخیره فایل‌های صوتی

تابع اصلی برای بارگذاری فایل‌ها، AudioSegment.from_file() است. این تابع از اکثر فرمت‌ها مانند MP3، WAV، OGG و FLAC پشتیبانی می‌کند.

audio = AudioSegment.from_file("music.wav", format="wav")
audio.export("output.mp3", format="mp3")

کد بالا یک فایل WAV را بارگذاری و آن را به فرمت MP3 تبدیل می‌کند. تابع export() می‌تواند پارامترهایی برای تعیین کیفیت، نرخ نمونه‌برداری و بیت‌ریت نیز بپذیرد.

مثال با تنظیم کیفیت خروجی

audio.export("compressed.mp3", format="mp3", bitrate="64k")

در این نمونه، خروجی با بیت‌ریت پایین‌تر ذخیره می‌شود تا حجم فایل کاهش یابد. این روش در ساخت نسخه‌های پیش‌نمایش صوتی بسیار مفید است.

۳. انجام عملیات ساده روی صدا

Pydub امکان انجام عملیات رایج روی صدا را به‌صورت بسیار ساده فراهم می‌کند. برخی از مهم‌ترین عملکردها عبارتند از:

برش صدا (Slicing): انتخاب بخشی از صدا با استفاده از ایندکس میلی‌ثانیه‌ای.
ادغام صداها (Concatenation): ترکیب دو یا چند فایل صوتی.
تغییر حجم (Gain): افزایش یا کاهش بلندی صدا.
افکت‌ها: افزودن fade-in، fade-out، reverse و غیره.

برش و ترکیب صدا

part1 = audio[:5000]   # 5 ثانیه اول
part2 = audio[5000:10000]  # ثانیه ۵ تا ۱۰
combined = part1 + part2
combined.export("combined.wav", format="wav")

در این مثال، دو بخش از یک فایل صوتی جدا شده و سپس به هم چسبانده می‌شوند. با استفاده از عملگر +، ترکیب صداها بسیار ساده است.

تنظیم حجم صدا

louder = audio + 6     # افزایش 6 دسی‌بل
quieter = audio - 6    # کاهش 6 دسی‌بل

این عملیات به صورت غیرتخریبی انجام می‌شود، یعنی نسخه اصلی فایل صوتی بدون تغییر باقی می‌ماند.

افکت‌های Fade-in و Fade-out

faded = audio.fade_in(2000).fade_out(2000)
faded.export("faded.mp3", format="mp3")

تابع fade_in() و fade_out() افکت محوشدگی را در بازه مشخص (بر حسب میلی‌ثانیه) اعمال می‌کنند. این ویژگی برای تولید فایل‌های صوتی با شروع و پایان نرم بسیار مفید است.

۴. تبدیل کانال‌ها و نرخ نمونه‌برداری

Pydub به شما اجازه می‌دهد تا صدای مونو را به استریو تبدیل کنید یا نرخ نمونه‌برداری را تغییر دهید:

stereo = audio.set_channels(2)
resampled = audio.set_frame_rate(44100)
resampled.export("resampled.wav", format="wav")

تغییر نرخ نمونه‌برداری می‌تواند برای هماهنگی بین دستگاه‌های مختلف یا بهبود کیفیت در پروژه‌های پردازش سیگنال ضروری باشد.

۵. کار با چند فایل صوتی

یکی از مزایای بزرگ Pydub، سادگی کار با چندین فایل صوتی و ترکیب آن‌ها است.

sound1 = AudioSegment.from_file("intro.mp3")
sound2 = AudioSegment.from_file("main.mp3")
sound3 = AudioSegment.from_file("outro.mp3")

final_audio = sound1 + sound2 + sound3
final_audio.export("podcast.mp3", format="mp3")

در این مثال، سه فایل صوتی به‌صورت پشت سر هم قرار می‌گیرند. این روش برای تولید پادکست یا کتاب صوتی بسیار پرکاربرد است.

۶. اضافه کردن سکوت و افکت‌ها

می‌توانید سکوت مصنوعی به صدا اضافه کنید یا بین دو قطعه فاصله ایجاد کنید:

from pydub.generators import Silence

silence = AudioSegment.silent(duration=2000)  # ۲ ثانیه سکوت
new_audio = sound1 + silence + sound2
new_audio.export("with_pause.mp3", format="mp3")

تابع AudioSegment.silent() برای ایجاد فضای خالی بین دو فایل مفید است. استفاده از آن در ویرایش حرفه‌ای صدا باعث طبیعی‌تر شدن جریان صوتی می‌شود.

۷. شناسایی و برش خودکار صداهای ساکت

برای کاربردهایی مانند پردازش گفتار یا حذف بخش‌های بدون صدا در فایل‌های پادکست، می‌توان از ویژگی detect_silence استفاده کرد.

from pydub.silence import detect_silence

silent_ranges = detect_silence(audio, min_silence_len=1000, silence_thresh=-40)
print(silent_ranges)

در اینجا، بخش‌های ساکت‌تر از -40 دسی‌بل که بیش از ۱ ثانیه طول دارند، شناسایی و موقعیت زمانی آن‌ها برگردانده می‌شود. می‌توانید با استفاده از این مقادیر، فایل را خودکار برش دهید.

۸. افزودن افکت‌های ساده با Pydub + numpy

در حالی که Pydub خودش بر پردازش سطح بالا تمرکز دارد، ترکیب آن با کتابخانه‌هایی مثل NumPy می‌تواند امکانات پیشرفته‌تری برای تحلیل و تغییر صدا فراهم کند.

import numpy as np
samples = np.array(audio.get_array_of_samples())
normalized = (samples / np.max(np.abs(samples))) * 32767
new_audio = audio._spawn(normalized.astype(np.int16).tobytes())
new_audio.export("normalized.wav", format="wav")

در این مثال، صدا نرمال‌سازی می‌شود تا دامنه سیگنال صوتی در محدوده مجاز قرار گیرد. این روش در بهبود کیفیت و جلوگیری از اعوجاج (Distortion) بسیار مؤثر است.

۹. نکات و بهترین روش‌ها

نکته	توضیح
استفاده از `export()` با پارامترهای مناسب	برای کنترل کیفیت و حجم خروجی اهمیت دارد.
حفظ نسخه اصلی فایل‌ها	همیشه قبل از تغییرات، نسخه اصلی را ذخیره کنید.
مدیریت خطاها	در هنگام کار با فایل‌ها از try-except برای جلوگیری از توقف برنامه استفاده کنید.
استفاده از فرمت WAV برای پردازش موقت	چون بدون فشرده‌سازی است و کیفیت را حفظ می‌کند.
پشتیبانی از UTF-8 در نام فایل‌ها	برای فایل‌های فارسی یا بین‌المللی مفید است.

۱۰. جمع‌بندی فنی

کتابخانه Pydub ابزاری قدرتمند و در عین حال ساده برای برنامه‌نویسان پایتون است که به‌ویژه در زمینه‌های زیر کاربرد فراوان دارد:

تولید پادکست و کتاب صوتی
ویرایش خودکار فایل‌های صوتی در سیستم‌های هوش مصنوعی
تبدیل فرمت‌ها برای سازگاری با پلتفرم‌های مختلف
ساخت نرم‌افزارهای چندرسانه‌ای

اگرچه Pydub برای پردازش پیشرفته مانند تحلیل فرکانسی مناسب نیست، اما برای بیشتر نیازهای عملی و پروژه‌های کوچک تا متوسط گزینه‌ای عالی محسوب می‌شود. ترکیب آن با کتابخانه‌هایی مانند NumPy، Librosa و SoundFile می‌تواند توان پردازشی آن را گسترش دهد.

آیا این مطلب برای شما مفید بود ؟

خیر

بله