با در اختیار داشتن مبانی اسکرپینگ محتوای استاتیک و پویا، وقت آن رسیده که با چالشی جامعتر مقابله کنیم: خزیدگی چند صفحهای. این بخش بر تکنیکهای مؤثر ناوبری و استخراج داده از وبسایتهایی با صفحات مترابط متعدد متمرکز است.
دو رویکرد اصلی برای خزیدگی وبسایتهای چند صفحهای وجود دارد:
- خزیدگی مبتنی بر لینک - دنبال کردن لینکها بین صفحات
- خزیدگی مبتنی بر نقشه سایت - استفاده از فایل sitemap.xml
برای خزیدگی نقشه سایت، بیشتر وبسایتها فایل sitemap.xml ارائه میدهند که همه URLهای مهم را فهرست میکند. این فایل XML ساختاریافته شامل موارد زیر است:
- URLهای صفحه
- تاریخهای آخرین تغییر
- فراوانی تغییر
- مقادیر اولویت
استفاده از نقشه سایت میتواند مؤثرتر از خزیدگی لینک باشد زیرا:
- فهرست کاملی از صفحات را از پیش فراهم میکند
- شامل متادیتا در مورد اهمیت و تازگی صفحه است
- از خزیدگی صفحات غیرضروری جلوگیری میکند
- بار سرور را کاهش میدهد
اما برای این فصل، بر خزیدگی مبتنی بر لینک با استفاده از Crawlee برای ساخت خزنده برای سایت تجاری چند صفحهای متمرکز خواهیم شد. Crawlee بسیاری از پیچیدگیهای خزیدگی وب را برای ما مدیریت میکند، از جمله:
- مدیریت خودکار صف و حذف تکرار URL
- منطق محدود کردن نرخ و تلاش مجدد داخلی
- مدیریت درخواست و مسیریابی قابل پیکربندی
- ذخیره و صادر کردن داده
ساختار سایتی که خزیدگی خواهیم کرد اینگونه است:
صفحه اصلی
├── دستهبندی: الکترونیک
│ ├── تلفنها
│ ├── لپتاپها
│ └── لوازم جانبی
├── دستهبندی: پوشاک
│ ├── مردانه
│ └── زنانه
└── محصولات ویژه
هر صفحه محصول بسته به دستهبندی طرحبندیهای مختلف دارد، اما باید اطلاعات ثابت را استخراج کنیم:
// نمونه ساختار دادهای که میخواهیم بسازیم
interface ProductData {
name: string;
price: number;
rating: { score: number, count: number };
features: string[];
status: string; // موجود، ناموجود، و غیره
}
interface ResultData {
categories: {
electronics: {
phones: ProductData[];
laptops: ProductData[];
accessories: ProductData[];
};
clothing: {
mens: {
shirts: ProductData[];
pants: ProductData[];
};
womens: {
dresses: ProductData[];
tops: ProductData[];
};
};
};
featured_products: FeaturedProduct[];
}
مفاهیم کلیدی خزیدگی با Crawlee
- مدیریت صف درخواست
Crawlee صف را به طور خودکار مدیریت میکند، اما در اینجا نحوه پیکربندی آن آمده است:
import { CheerioCrawler } from 'crawlee';
const crawler = new CheerioCrawler({
// هر درخواست را مدیریت میکند
async requestHandler({ $, request, enqueueLinks }) {
// پردازش صفحه
const data = extractPageData($);
// به طور خودکار URLهای جدید پیدا شده در صفحه را به صف اضافه میکند
await enqueueLinks({
selector: 'a',
baseUrl: request.loadedUrl,
});
},
// محدود کردن درخواستهای همزمان
maxConcurrency: 10,
});
- مدیریت URL
Crawlee مدیریت و عادیسازی URL داخلی فراهم میکند:
await crawler.run([startUrl]);
// یا با پیکربندی بیشتر:
await crawler.addRequests([{
url: startUrl,
userData: {
label: 'start',
},
}]);
- مدیریت مسیر
مسیریابی URLهای مختلف به مدیریتکنندههای مشخص:
const crawler = new CheerioCrawler({
async requestHandler({ $, request }) {
const { label } = request.userData;
switch (label) {
case 'category':
return handleCategory($);
case 'product':
return handleProduct($);
default:
return handleHomepage($);
}
},
});
- جمعآوری داده
Crawlee ذخیره داخلی برای دادههای جمعآوری شده فراهم میکند:
const crawler = new CheerioCrawler({
async requestHandler({ $, pushData }) {
const productData = extractProduct($);
await pushData(productData);
},
});
بهترین روشهای خزیدگی وب
در حالی که Crawlee بسیاری از نگرانیهای سطح پایین را مدیریت میکند، باید همچنان موارد زیر را در نظر بگیرید:
-
پیکربندی
- محدودههای نرخ مناسب تنظیم کنید
- استراتژیهای تلاش مجدد را پیکربندی کنید
- رشتههای user-agent معنادار تنظیم کنید
-
مدیریت خطا
- از مدیریت خطای داخلی Crawlee استفاده کنید
- callbackهای خطای سفارشی پیادهسازی کنید
- اطلاعات تشخیصی معنادار را ثبت کنید
-
سازماندهی داده
- دادههای خود را به طور ثابت ساختار دهید
- از برچسبهای درخواست برای مسیریابی استفاده کنید
- از ویژگیهای dataset Crawlee استفاده کنید
-
مدیریت منابع
- maxConcurrency را به طور مناسب پیکربندی کنید
- در صورت نیاز از maxRequestsPerCrawl استفاده کنید
- استفاده از حافظه را نظارت کنید
چالش
وظیفه شما ساخت یک خزنده مبتنی بر Crawlee است که:
- از صفحه اصلی شروع کند و همه دستهبندیهای محصول را کشف کند
- از هر صفحه دستهبندی و زیردستهبندی بازدید کند
- اطلاعات محصول را از هر فهرست استخراج کند
- دادهها را در قالبی ساختاریافته سازماندهی کند
- محصولاتی که در جاهای متعدد ظاهر میشوند (مثل ویژه و دستهبندی) را مدیریت کند
سایت شامل تقریباً 25-30 محصول در دستهبندیهای مختلف، با طرحبندیها و ساختار اطلاعات متنوع است. خزنده شما باید مجموعه دادهای جامع تولید کند که روابط سلسلهمراتبی بین دستهبندیها و محصولات را حفظ کند.
آزمایش راهحل شما
آزمایش برای:
- کاملبودن: آیا همه محصولات را پیدا کردید؟
- دقت: آیا دادههای استخراج شده درست است؟
- ساختار: آیا دادهها به درستی سازماندهی شدهاند؟
- کارایی: چه تعداد درخواست انجام دادید؟
مثال حل شده در _solved/chapter6/ پیادهسازی مرجع با استفاده از Crawlee فراهم میکند. آن را مطالعه کنید تا بفهمید چگونه از ویژگیهای کتابخانه برای خزیدگی چند صفحهای کارآمد و سازماندهی داده استفاده کنید.
خزیدگی خوشحال!