مرحباً بك في القسم 5! حتى الآن، قمنا بتغطية كشط المحتوى HTML الثابت والديناميكي، والتنقل في المواقع متعددة الصفحات، والتفاعل مع APIs والنماذج. الآن ننتقل إلى ما وراء النص لاستكشاف استخراج محتوى الوسائط. يركز هذا القسم على تقنيات التعامل مع أنواع مختلفة من الوسائط التي نواجهها أثناء كشط الويب.
1. استخراج الصور والبيانات الوصفية (الفصل 10)
تشكل الصور جزءاً هاماً من محتوى الويب، وكشطها يتضمن أكثر من مجرد تحميل الملفات. غالباً ما تكون السياقات القيمة مخزنة في البيانات الوصفية المرتبطة.
المفاهيم الأساسية:
- تحديد الصور: استخدام المحددات لإيجاد عناصر الصور في HTML (علامات
<img>، صور الخلفية، إلخ) - استخراج البيانات الوصفية: جمع معلومات حيوية مثل:
- نص
alt(ضروري للوصول ولوصف محتوى الصورة) - أسماء الملفات (غالباً تحتوي على معلومات وصفية مثل التواريخ أو الموضوعات)
- التوضيحات والنص المحيط
- خصائص بيانات مخصصة (مثل
data-photographer،data-location)
- نص
- تحميل الصور: تقنيات حفظ الصور بكفاءة مع الحفاظ على التنظيم
- بيانات EXIF: لبعض الصور، استخراج البيانات التقنية المدمجة (إعدادات الكاميرا، إحداثيات GPS، إلخ)
التحدي (الفصل 10): ستقوم بكشط موقع أرشيف رقمي يحتوي على صور تاريخية مختلفة. مهمتك هي استخراج ليس فقط الصور نفسها، ولكن أيضاً جميع البيانات الوصفية المرتبطة بما في ذلك نص alt ومعلومات اسم الملف والتوضيحات والخصائص المخصصة.
2. تحميل وتحليل ملفات PDF
العديد من الوثائق القيمة على الويب مخزنة كملفات PDF، والتي تتطلب معالجة خاصة لاستخراج محتواها.
المفاهيم الأساسية:
- اكتشاف PDF: العثور على روابط PDF في صفحات الويب
- التحميل: تقنيات جلب ملفات PDF
- استخراج النص: استخدام مكتبات مثل
pdf-parseأوpdf.jsلاستخراج المحتوى النصي - البيانات المنظمة: التعامل مع الوثائق ذات:
- النص الأساسي
- الجداول والأعمدة
- النماذج
- الصور المدمجة
- الوصول إلى البيانات الوصفية: استخراج خصائص الوثيقة (العنوان، المؤلف، تاريخ الإنشاء)
كشط سعيد!