مانیتورینگ و دیباگ در Node.js

مانیتورینگ و دیباگ در Node.js بخش حیاتی توسعه و نگهداری اپلیکیشن‌های تولیدی است. بدون ابزارها و روش‌های صحیح، تشخیص مشکلاتی مثل نشت حافظه، قفل شدن لوپ رویداد (event loop), یا خطاهای پراکنده بسیار دشوار می‌شود. در این مقاله مفاهیم، ابزارها و نمونه‌های عملی برای دیباگ و مانیتورینگ در محیط Node.js را به زبان ساده و حرفه‌ای بررسی می‌کنیم.

اصول و معیارهای مهم برای مانیتورینگ

متریک‌های پایه: استفاده از حافظه (RSS, heapUsed), مصرف CPU، طول صف رویداد (event loop lag) و تعداد اتصال‌ها.
لاگ‌گذاری ساختاریافته: ثبت لاگ‌ها با سطح (error, warn, info) و شناسه‌های همبسته (correlation id).
آلارم و آستانه‌ها: تعریف آستانه برای متریک‌های کلیدی و ارسال هشدار به کانال‌های مناسب.
پروفایلینگ دوره‌ای: نمونه‌برداری (sampling) یا رویه‌ای (instrumentation) برای یافتن تنگناها.

ابزارهای رایج و مقایسه سریع

ابزار	کاربرد	بار‌گذاری
PM2	مدیریت فرایند، مانیتورینگ ساده، لاگ‌ها	کم
Prometheus + Grafana	جمع‌آوری متریک و داشبوردهای قابل تنظیم	متوسط
Clinic (Flame / Doctor / Bubbleprof)	پروفایلینگ CPU، I/O و event loop	متوسط تا زیاد (برای زمان تست)
Sentry / New Relic / Elastic APM	ردیابی خطا، performance tracing و APM	متوسط

دیباگ محلی و ابزارهای داخلی Node.js

Node.js امکاناتی مثل inspector، CLI debugger و flags مفید ارائه می‌دهد. برای توقف در اولین خط و اتصال به Chrome DevTools:

node --inspect-brk ./server.js

این دستور فرآیند Node را در حالت inspector اجرا می‌کند و با مرورگر (chrome://inspect) یا VSCode قابل اتصال است. کاربرد اصلی برای دیباگ محلی و بررسی call stack، breakpoints و scope‌هاست.

نمونه‌: مانیتور حافظه ساده

setInterval(() => {
  const mem = process.memoryUsage();
  console.log(`RSS: ${Math.round(mem.rss / 1024 / 1024)}MB, heapUsed: ${Math.round(mem.heapUsed/1024/1024)}MB`);
}, 10000);

این کد هر 10 ثانیه مصرف حافظه را چاپ می‌کند. برای محیط تولید بهتر است لاگ‌ها به سیستم لاگ مرکزی یا متریک اکسپورت شوند و از چاپ مستقیم در کنسول پرهیز شود.

پایش event loop و latency

برای تشخیص بلوکه شدن لوپ رویداد از ماژول native perf_hooks می‌توان استفاده کرد:

const { monitorEventLoopDelay } = require('perf_hooks');
const h = monitorEventLoopDelay({ resolution: 10 });
h.enable();
setInterval(() => {
  console.log('event loop delay (ms):', h.mean / 1e6);
  h.reset();
}, 5000);

این نمونه میانگین تاخیر لوپ رویداد را گزارش می‌کند که کمک می‌کند متوجه شویم عملیات‌های سنگین CPU یا بلاک‌کننده باعث مشکل شده‌اند.

متریک‌ها برای Prometheus (Express مثال)

const express = require('express');
const client = require('prom-client');
const app = express();

const collectDefault = client.collectDefaultMetrics;
collectDefault();

const httpReqs = new client.Counter({ name: 'http_requests_total', help: 'Total HTTP requests' });

app.use((req, res, next) => {
  httpReqs.inc();
  next();
});

app.get('/metrics', async (req, res) => {
  res.set('Content-Type', client.register.contentType);
  res.end(await client.register.metrics());
});

app.listen(3000);

این کد یک endpoint /metrics در اپلیکیشن اکسپرس ایجاد می‌کند که Prometheus می‌تواند آن را scrape کند. علاوه بر متریک‌های پیش‌فرض، می‌توان custom metric اضافه کرد تا داشبوردهای Grafana بسازید.

پروفایلینگ و تشخیص نشت حافظه

برای نشت حافظه از heap snapshot و ابزارهایی مثل Chrome DevTools یا heapdump استفاده کنید. در تولید اغلب از sampling profiler استفاده می‌شود تا overhead کم باشد. ابزارهایی مثل Clinic.js (npx clinic) برای گرفتن flamegraph و تحلیل performance بسیار مفیدند:

npx clinic flame -- node server.js

این فرمان اپلیکیشن را اجرا و در پایان یک flamegraph تولید می‌کند که نشان می‌دهد کجا بیشترین زمان CPU صرف شده است.

لاگ‌گذاری ساختاریافته و مدیریت خطا

از کتابخانه‌هایی مثل Pino یا Winston برای لاگ ساختاریافته (JSON) استفاده کنید.
Unhandled errors: حتما handler برای unhandledRejection و uncaughtException داشته باشید و فرایند را در صورت لازم ری‌استارت کنید (به کمک PM2 یا سیستم اورکستراسیون).

مثال ساده ثبت خطا:

process.on('unhandledRejection', (reason) => {
  console.error('Unhandled Rejection:', reason);
  // ارسال به Sentry یا لاگ مرکزی
});

ثبت این رویدادها کمک می‌کند خطاهایی که در promiseها نادیده گرفته می‌شوند را شناسایی کنید. در تولید بهتر است این موارد به یک سرویس خطاپذیر مثل Sentry ارسال شوند.

Tracing توزیع‌شده و correlation id

در میکروسرویس‌ها ضروری است درخواست‌ها قابل ردیابی بین سرویس‌ها باشند. از OpenTelemetry یا APM های تجاری استفاده کنید تا spans و traces بین سرویس‌ها جمع‌آوری شود. همچنین استفاده از correlation id در هدرها و لاگ‌ها امکان پیگیری بهتر را فراهم می‌آورد.

بهترین شیوه‌ها و نکات عملی

مانیتورینگ را از مرحله staging آغاز کنید و thresholdهای تولیدی را به تدریج تنظیم کنید.
در متریک‌ها Sampling و aggregation داشته باشید تا هزینه ذخیره‌سازی کم بماند.
در محیط تولید از ابزارهای با overhead کم (مثل sampling profiler یا event-loop delay) استفاده کنید.
پروفایلینگ کامل را در محیط تولید با احتیاط یا در محیط staging انجام دهید تا روی کاربران تأثیر نگذارد.
آلارم‌ها را هوشمندانه تنظیم کنید تا هشدارهای کاذب کم شود و تیم به هشدارهای واقعی توجه کند.

خلاصه و مسیر عمل

مانیتورینگ و دیباگ در Node.js ترکیبی از جمع‌آوری لاگ‌ها، متریک‌ها، tracing و پروفایلینگ است. ابزارهایی مثل Prometheus/Grafana، PM2، Clinic و APMها هر کدام نقش مکمل دارند. پیاده‌سازی لاگ ساختاریافته، تعریف آستانه و داشبوردهای کاربردی، و توانایی گرفتن پروفایل در زمان وقوع مشکل، مهم‌ترین گام‌ها برای بهبود قابلیت اطمینان و عملکرد اپلیکیشن هستند.

اگر نیاز به نمونه‌های بیشتر (مثل گرفتن heap snapshot برنامه‌ریزی‌شده یا نمونه‌های OpenTelemetry) دارید، می‌توانم کدهای دقیق‌تر و راهنمای گام‌به‌گام فراهم کنم.

آیا این مطلب برای شما مفید بود ؟

خیر

بله