لماذا شبكة الديب الويب غير قابلة للفهرسة في محركات البحث
الويب العميق:
شبكة الديب ويب ، الويب الخفي الويب العميق هي مصطلحات بحث تشير إلى المحتوى الذي لم تتم فهرسته بواسطة محركات البحث المعروفة. نحن جميعًا نعرف فقط الأشياء التي تظهر لنا ، على سبيل المثال ، "الشبكة السطحية" هي تبلغ حوالي 19 تيرابايت وهي جزء صغير فقط من الشبكة العالمية الأصلية. يتم إخفاء الجزء الأكبر بنسبة حوالي 7500 تيرابايت ولا يزال في التوسع.ماذا تحتوي شبكة الديب ويب؟
بعض الأشياء النادرة الموجودة في الدارك ويب
- طلب الماريجوانا بالبريد.
- المخدرات.
- الاسواق السوداء مثل طريق الحرير .
- القتلة المأجورون (قاتل محترف)
- معلومات بطاقة الائتمان المسروقة.
- الرهانات على الاحداث الرياضية.
- مواقع شراء الأسلحة.
- المتاجرة بالأعضاء البشرية.
- السرقة حسب طلبك.
- الويكي المخفي The Hidden Wiki
لماذا شبكة الديب الويب غير قابلة للفهرسة؟
هناك العديد من الطرق التي تمنع فهرسة صفحات الويب بواسطة محركات البحث التقليدية. لقد صنفت لهم للرجوع اليها أدناه.- المحتوى الديناميكي: الصفحات الديناميكية التي يتم إرجاعها استجابةً لاستعلام مقدم Query أو يتم الوصول إليه فقط من خلال نموذج Form، خاصةً إذا تم استخدام عناصر إدخال المجال المفتوح ؛ هذه الحقول يصعب التنقل دون معرفة الدومين.
- محتوى الوصول المحدود: المواقع التي تحد من الوصول إلى صفحاتهم بطريقة تقنية (على سبيل المثال ، باستخدام Robots Exclusion Standard أو CAPTCHAs ، أو التوجيه no-store الذي يمنع محركات البحث من تصفحها وإنشاء نسخ مخبأة).
- محتوى غير HTML / TEXT: المحتوى النصي المشفر في ملفات الوسائط المتعددة (الصورة أو الفيديو) أو تنسيقات ملفات محددة لا يتم معالجتها بواسطة محركات البحث.
- الويب الخاص: المواقع التي تتطلب التسجيل وتسجيل الدخول (موارد محمية بكلمة مرور).
- المحتوى النصي Scripted content: الصفحات التي لا يمكن الوصول إليها إلا من خلال الروابط التي ينتجها JavaScript وكذلك المحتوى الذي يتم تنزيله ديناميكيًا من خوادم الويب عبر حلول Flash أو Ajax.
- البرامج: يتم إخفاء محتوى معين عن قصد من الإنترنت العادي ، ولا يمكن الوصول إليه إلا من خلال برامج خاصة ، مثل Tor أو I2P أو برامج darknet الأخرى. على سبيل المثال ، يسمح Tor للمستخدمين بالوصول إلى مواقع الويب باستخدام عنوان .onion بشكل مجهول ، مع إخفاء IP الخاص بهم.
- المحتوى غير المرتبط: الصفحات التي لا ترتبط بها صفحات أخرى ، مما قد يمنع برامج زحف الويب من الوصول إلى المحتوى. يشار إلى هذا المحتوى بصفحات بدون روابط خلفية (تُعرف أيضًا باسم الروابط الداخلية). أيضًا ، لا تكتشف محركات البحث دائمًا جميع الروابط الخلفية من صفحات الويب التي يتم البحث عنها.
- أرشيف الويب: تمكّن خدمات أرشفة الويب مثل Wayback Machine المستخدمين من رؤية الإصدارات المؤرشفة لصفحات الويب مع الوقت ، بما في ذلك المواقع الإلكترونية التي يتعذر الوصول إليها ، ولا يتم فهرستها بواسطة محركات البحث مثل Google.
- سياق الويب: صفحات ذات محتوى يختلف عن السياق المطلوب.
- سياسة محركات البحث: محرك البحث مثل قوقل وبينج وياهو لا يمكنهم الزحف وفهرسة مواقع الديب ويب, لأن الكثير منها يتضمن محتوى غير شرعي ومخالف للقوانين.
- ملف الروبوت: جميع محركات البحث تحترم خصوصية وحرية المستخدم في تمكين صفحات او مواقع معينة وتخضع لملف Robots.txt والذي تحدد له (صاحب الموقع) أي الصفحات يمكن لمحرك البحث الزحف اليها اولا عن طريق معلمات مثل nofollow, noindex, nocache وغيرها.