वीडियो: वेब क्रॉलर - CS101 - Udacity 2024
स्पाइडर प्रोग्राम (या स्वचालित स्क्रिप्ट) हैं जो वेब के माध्यम से 'क्रॉल' डेटा की तलाश में हैं स्पाइडर वेबसाइट यूआरएल के माध्यम से यात्रा करते हैं और ईमेल पतों जैसे वेब पेजों से डेटा खींच सकते हैं। स्पाइडर का उपयोग वेबसाइटों पर सर्च इंजनों को खोजने के लिए किया जाता है।
मकड़ियों, जिन्हें 'वेब क्रॉलर्स' के रूप में भी जाना जाता है, वेब खोजते हैं और सभी अपने इरादे से अनुकूल नहीं हैं
स्पैमर्स स्पाइडर वेबसाइट्स को इकट्ठा करने वाली जानकारी
गूगल, याहू!
और अन्य खोज इंजन केवल उन वेबसाइटों को रेंगने में दिलचस्पी नहीं है - इसलिए स्कैमर और स्पैमर्स हैं
स्पाइडर और अन्य स्वचालित उपकरण का प्रयोग वेबसाइट पर ईमेल पते (इंटरनेट पर इस अभ्यास को अक्सर 'कटाई' के रूप में किया जाता है) खोजने के लिए किया जाता है और फिर उन्हें स्पैम सूची बनाने के लिए उपयोग किया जाता है।
स्पाइडर भी आपकी वेबसाइट के बारे में और अधिक जानकारी प्राप्त करने के लिए खोज इंजन द्वारा उपयोग किए गए उपकरण हैं, लेकिन बिना अनचाहे बाएं, आपकी साइट को क्रॉल करने के तरीके पर निर्देशों (या 'अनुमति') के बिना वेबसाइट प्रमुख प्रस्तुत कर सकती है सूचना सुरक्षा जोखिम मकड़ियों ने निम्नलिखित लिंक से यात्रा की है, और वे डेटाबेस, प्रोग्राम फ़ाइलें और अन्य जानकारी के लिंक खोजने में बहुत ही कुशल हैं, जिनके लिए आप उन्हें एक्सेस नहीं करना चाहते हैं
-3 ->वेबमास्टर्स लॉग्स को देख सकते हैं कि मकड़ियों और अन्य रोबोट ने अपनी साइट्स का दौरा किया है। यह जानकारी वेबमास्टर्स को पता है कि उनकी साइट का अनुक्रमण कौन करता है, और कितनी बार
यह जानकारी उपयोगी है क्योंकि यह वेबमास्टरों को अपने एसईओ को ठीक करने और रोबोट का अद्यतन करने की अनुमति देता है कुछ रोबोट को भविष्य में अपनी साइट को क्रॉल करने से प्रतिबंधित करने के लिए txt फ़ाइलें।
अवांछित रोबोट क्रॉलर्स से आपकी वेबसाइट को सुरक्षित रखने पर युक्तियां
अवांछित क्रॉलर्स को आपकी वेबसाइट से बाहर रखने का एक बहुत आसान तरीका है यहां तक कि अगर आप दुर्भावनापूर्ण मकड़ियों अपनी साइट को क्रॉल करने के बारे में चिंतित नहीं हैं (ईमेल पते को छिपाना आपको सबसे अधिक क्रॉलर्स से नहीं सुरक्षित करेगा), तो आपको अभी भी महत्वपूर्ण निर्देशों के साथ खोज इंजन प्रदान करने की आवश्यकता होगी।
सभी वेबसाइटों को रोबोट नामक मूल निर्देशिका में स्थित एक फाइल होना चाहिए। txt फ़ाइल यह फाइल आपको वेब क्रॉलर्स को हिदायत देने की अनुमति देती है, जहां आप चाहते हैं कि वे इंडेक्स पेज पर नज़र डालें (जब तक कि किसी विशेष पृष्ठ के मेटा डेटा में कोई इंडेक्स नहीं किया गया हो), यदि वे एक खोज इंजन हैं
बस आप चाहते हैं कि क्रॉलर्स कहां ब्राउज़ कर सकते हैं, आप उनसे यह भी बता सकते हैं कि वे पूरी वेबसाइट से विशिष्ट क्रॉलर्स को नहीं छोड़ सकते हैं।
यह ध्यान में रखना महत्वपूर्ण है कि एक अच्छी तरह से रोबोट को एक साथ रखा txt फ़ाइल में खोज इंजन के लिए जबरदस्त मूल्य होगा और आपकी वेबसाइट के प्रदर्शन में सुधार करने में एक महत्वपूर्ण तत्व भी हो सकता है, लेकिन कुछ रोबोट क्रॉलर अभी भी आपके निर्देशों को अनदेखा करेंगे। इस कारण से, अपने सभी सॉफ़्टवेयर, प्लगिन्स और ऐप्स को हर समय अद्यतित रखना महत्वपूर्ण है।
संबंधित लेख और सूचना
अपमानजनक (स्पैम) प्रयोजनों के लिए उपयोग की जाने वाली सूचना के प्रसार के कारण, 2003 में कानून कुछ खास प्रथाओं को अवैध बनाने के लिए पारित किया गया था। ये उपभोक्ता संरक्षण कानून 2003 के स्पैम अधिनियम के अंतर्गत आते हैं।
यह महत्वपूर्ण है कि आप अपना स्पैम अधिनियम को पढ़ने के लिए समय ले लें अगर आपका व्यवसाय किसी भी बड़े पैमाने पर मेलिंग या सूचना संचयन में संलग्न है।
आप विरोधी स्पैम कानूनों और स्पैमर्स से निपटने के बारे में अधिक जानकारी प्राप्त कर सकते हैं, और निम्नलिखित लेखों को पढ़ कर आप व्यवसाय स्वामी के रूप में क्या कर सकते हैं:
- CAN-SPAM Act 2003
- CAN- गैर लाभ के लिए स्पैम अधिनियम नियम
- 5 कर-स्पैम नियम छोटे व्यवसाय के स्वामी को समझना चाहिए
एक लेखा पत्रिका की परिभाषा क्या है? <एक लेखा जर्नल की परिभाषा के बारे में जानें
यह एक व्यापार के सभी वित्तीय लेनदेन का विवरण देता है और कौन से खाते प्रभावित होते हैं
एफआईसीओ स्कोर परिभाषा - क्रेडिट / ऋण परिभाषा
एक एफआईसीओ स्कोर आपके क्रेडिट स्कोर का एक संस्करण है जिसे विकसित किया गया है द्वारा और उस कंपनी के नाम पर रखा गया जिसने स्कोर विकसित किया।
वेब डिज़ाइन बनाम वेब डेवलपमेंट: अंतर क्या है?
वेब डिजाइन और विकास के बारे में जानना चाहते हैं? दोनों के बीच मतभेद और समानताएं देखने के लिए यहां क्लिक करें।