تابع similar_text() در PHP
تابع similar_text() در PHP برای سنجش شباهت بین دو رشته طراحی شده است. این تابع تعداد کاراکترهای «مشابه» بین دو رشته را بازمیگرداند و میتواند درصد شباهت را نیز در یک پارامتر مرجع قرار دهد. کاربردهای رایج شامل تشخیص شباهت بین نامها، جستجوی فازی، و پاکسازی دادهها قبل از مقایسه هستند.
امضای تابع و رفتار کلی
امضای تابع:
| تابع | پارامترها | خروجی |
|---|---|---|
| similar_text(string $first, string $second, float &$percent = null): int | $first، $second: رشتهها — $percent: مقدار درصد شباهت (اختیاری) | تعداد کاراکترهای مشابه (عدد صحیح) |
مثال پایه
<?php
$a = "Hello world";
$b = "Hello there";
$match = similar_text($a, $b, $percent);
echo "Matched chars: $matchn";
echo "Similarity: $percent %n";
?>
در این مثال تابع تعداد کاراکترهای مشابه را محاسبه و درصد شباهت را در متغیر $percent قرار میدهد. این روش برای رشتههای لاتین و تکبایتی عموماً قابل اعتماد است.
محدودیتها و نکات مهم
- محاسبات بایتمحور: similar_text در سطح بایت کار میکند، نه کاراکتر یونیکد. بنابراین برای رشتههای UTF-8 (مانند فارسی، عربی یا سایر حروف چندبایتی) ممکن است نتایج غیرمنتظرهای بدهد.
- پیچیدگی زمانی: الگوریتم مشابهت در این تابع زمانی نسبتاً بالا دارد (میتواند تقریباً O(n*m) باشد)، پس برای رشتههای بسیار طولانی یا مقایسههای دستهای سریع مناسب نیست.
- نوع تشابه: این تابع مبتنی بر پیدا کردن بخشهای مشترک است و با اندازهگیری طول بزرگترین زیررشتههای مشترک (و بازگشت مجموع)، رفتار متفاوتی نسبت به فاصله لوونشتاین (Levenshtein) یا LCS خواهد داشت.
نمونه مشکل با UTF-8 (فارسی)
<?php
$s1 = "سلام دنیا";
$s2 = "سلام دنیا!";
$match = similar_text($s1, $s2, $percent);
echo "Matched: $match, Percent: $percentn";
?>
در بسیاری از موارد این مقایسه برای رشتههای فارسی نتیجهٔ منطقی خواهد داد، ولی چون هر کاراکتر فارسی در UTF-8 چند بایت است، تابع مشابهت ممکن است با تعداد بایت کار کند و درصد دقیق کاراکتر-محور را نشان ندهد. برای اطمینان، باید قبل از مقایسه پردازش روی رشتهها انجام شود یا از روشهای مخصوص یونیکد استفاده گردد.
راهکارهای کار کردن صحیح با رشتههای چندبایتی
چند راهکار برای کاهش خطا و بهبود دقت در زبانهای غیرلاتین:
- از توابع
mb_*برای نرمالسازی، کوچکسازی (mb_strtolower) و گرفتن طول (mb_strlen) استفاده کنید. - نسبت به حذف نویسههای کنترلی، فاصلههای اضافه و تگهای HTML اقدام کنید.
- اگر نیاز به ناوبری کاراکتر-محور دارید، از
mb_str_splitیاpreg_split('//u')برای تبدیل رشته به آرایهٔ کاراکترها استفاده کنید و یک الگوریتم LCS یا Levenshtein بر روی آرایهها پیاده کنید.
تابع جایگزین برای پشتیبانی کامل از یونیکد (نمونه)
<?php
function unicode_similarity_percent(string $a, string $b): float {
// split into unicode characters (PHP 7.4+ has mb_str_split)
$charsA = preg_split('//u', $a, -1, PREG_SPLIT_NO_EMPTY);
$charsB = preg_split('//u', $b, -1, PREG_SPLIT_NO_EMPTY);
$lenA = count($charsA);
$lenB = count($charsB);
if ($lenA === 0 && $lenB === 0) return 100.0;
if ($lenA === 0 || $lenB === 0) return 0.0;
// LCS dynamic programming
$dp = array_fill(0, $lenA + 1, array_fill(0, $lenB + 1, 0));
for ($i = 1; $i <= $lenA; $i++) {
for ($j = 1; $j <= $lenB; $j++) {
if ($charsA[$i - 1] === $charsB[$j - 1]) {
$dp[$i][$j] = $dp[$i - 1][$j - 1] + 1;
} else {
$dp[$i][$j] = max($dp[$i - 1][$j], $dp[$i][$j - 1]);
}
}
}
$lcs = $dp[$lenA][$lenB];
$percent = ($lcs / max($lenA, $lenB)) * 100.0;
return $percent;
}
?>
کد بالا از الگوریتم Longest Common Subsequence (LCS) برای محاسبهٔ میزان شباهت بر پایهٔ کاراکتر یونیکد استفاده میکند. ابتدا رشتهها را به آرایهٔ کاراکتر تبدیل میکند (با preg_split('//u')) سپس ماتریس DP را میسازد و طول LCS را محاسبه میکند. در نهایت درصد را بر پایهٔ طول بزرگتر دو رشته برمیگرداند. این روش برای متنهای فارسی دقیقتر است اما هزینهٔ محاسباتی قابل توجهی دارد.
توصیههای عملی و بهینهسازیها
- برای مجموعههای بزرگ داده، ابتدا مقایسهٔ ساده و سریع (مثل بررسی طول یا هش) انجام داده، سپس موارد مشکوک را با توابع دقیقتر بررسی کنید.
- اگر معیار شما ویرایش است (تغییرات، حذف یا اضافه)، از
levenshtein()استفاده کنید؛ اگر به تشابه آوایی نیاز دارید، ازmetaphone()یاsoundex()کمک بگیرید. - قبل از مقایسه، رشتهها را نرمالسازی (Normalizing) کنید: حذف تکرار فاصله، تبدیل به حروف کوچک، حذف نقطهگذاری و نرمالسازی یونیکد با intl (اگر در دسترس است).
- برای مقایسهٔ مقیاسپذیر، از الگوریتمهایی مانند MinHash یا LSH برای شباهت اسناد استفاده کنید و سپس از similar_text یا الگوریتمهای دقیقتر در سطح جزیی استفاده کنید.
نتیجهگیری
تابع similar_text() ابزار ساده و مفیدی برای مقایسهٔ رشتههاست ولی برای متنهای یونیکد و مجموعههای بزرگ باید با احتیاط و پس از نرمالسازی استفاده شود. برای پروژههای جدی و زبانهای چندبایتی، ترکیب توابع mb_*، نرمالسازی و الگوریتمهای جایگزین مثل Levenshtein یا LCS عملکرد و دقت بهتری فراهم میکند.
آیا این مطلب برای شما مفید بود ؟



