Robots.txt क्या है और कैसे Use किया जाता है?

Robots.txt क्या है? क्या आपने कभी इसके बारे में सुना है, यदि नहीं तो आज आपके लिए खुसखबरी की बात है क्यूंकि आज में आप लोगों को Robots.txt के बारे में कुछ जानकारी प्रदान करने वाला हूँ. यदि आपका कोई Blog या फिर website है तो आप ये जरुर महसूस किया होगा की कभी कभी हम जो चीज़ नहीं चाहते हैं वो सारे information भी Internet में public हो जाते हैं, क्या आपको पता है की ऐसा क्यूँ होता है. क्यूँ हमारे बहुत सारे अच्छे contents भी बहुत दिनों बाद index नहीं हुए होते. यदि इन सभी चीज़ों के पीछे की रहस्य के बारे में जानना है तो आपको ये article Robots.txt क्या है पुरे ध्यान से पढना होगा जिससे आपको article के end तक इन सभी चीज़ों के बारे में पता चल जायेगा.

Search Engines को ये बताना की कोन से Files और Folders को website में सारे public को दिखाना है और किन चीज़ों को नहीं इसके लिए Robots metatag का इस्तमाल होता है. लेकिन सारे Search Engines को Metataga को पढना नहीं आता, इसलिए बहुत से Robots Metatag बिना पढ़े गए ही unnoticed चले जाते हैं. इसके लिए जो बेहतरीन तरीका है वो है की Robots.txt File का इस्तमाल करना जिससे की बड़ी आसानी से Search Engines को अपने Website या Blog के Files और Folders के बारे में सुचना दी जा सकती है. तो आज मैंने ये सोचा की क्यूँ न आप लोगों को Robots.txt क्या है के बारे में पूरी जानकारी दे दी जाये जिससे की आपको भी आगे इसे समझने में कोई तकलीफ न हो. तो फिर देरी किस बात की चलिए शुरू करते हैं और जानते हैं की आखिर ये Robots.txt क्या है और इसके क्या फायेदे है.

Robots.txt क्या है

Robots.txt एक text file होता है जिसे की आप अपने site में रखते हो ताकि आप Search Robots को ये बता सको की उन्हें आपके site में किन pages को visit करना है या crawl करना है और किन्हें नहीं. वैसे Robots.txt को पालन करना search engines के लिए mandatory नहीं है लेकिन वो इसे जरुर ध्यान देते हैं और इसमें mentioned किये गए pages और folders को visit नहीं करते. उस हिसाब से Robots.txt बहुत ही महत्वपूर्ण है. इसलिए इसे main directory में रखना अत्यंत जरुरी है जिससे की search engine को इसे ढूंडने में आसानी होती है.

यहाँ ध्यान देने वाली बात यह है की अगर हम इस file का सही जगह में implementation न करें तो Search Engines को ये लगेगा की शायद आपने robot.txt file को include ही नहीं किया है जिससे की आपके site के pages शायद index भी न हों. इसलिए इस छोटे से file की बहुत ज्यादा importance है यदि इसका इस्तमाल ठीक से नहीं किया गया तब इससे आपके website की ranking भी कम सकती है. इसलिए इसके बारे में अच्छी जानकारी होना बहुत ही जरुरी है. ये कैसे काम करता है?

कोई भी search engines या Web Spiders यदि आपके website या blog को पहली बार आये हैं तो वो पहले आपके robot.txt file को crawl करते हैं क्यूंकि इसमें आपके website को लेकर सारी जानकारी होती है की किन चीज़ों को crawl नहीं करना है और किन्हें करना है. और वो आपके निर्देशित pages को index कर देती हैं, जिससे की आपके indexed pages search engine results में प्रदर्शित होते हैं.

Robots.txt files आपके लिए बहुत फायेदेमंद साबित हो सकते हैं यदि :

आप चाहते हैं की search engines आपके website में स्तिथ duplicate pages को ignore करे
अगर आप चाहते हैं की आपके internal search results pages को ये index न करे तब
अगर आप चाहते हैं की search engines आपके निर्देशित कुछ pages को index न करें तब
अगर आप चाहते हैं की आपके कुछ files जैसे की कुछ images, PDFs इत्यादि को ये Index न करें तब
अगर आप चाहते हैं search engines को ये बताना की आपकी sitemap कहाँ स्तिथ है तब

कैसे robots.txt file को बनाया जाता है

यदि आपने अभी तक भी अपने website या blog में robots.txt file बनाया नहीं है तब आपको खूब शीघ्र ही इसे बना लेना चाहिए क्यूंकि ये आगे चलकर आपके लिए काफी फायेदेमंद साबित होने वाला है. इसे बनाने के लिए आपको कुछ निर्देशों को पालन करना होगा :

सबसे पहले एक text file बनायें और उसे robots.txt के नाम से save करें. इसके लिए आप NotePad का इस्तमाल कर सकते हैं यदि आप Windows का इस्तमाल करते हैं तब या TextEdit का यदि आप Macs का इस्तमाल करते हैं और उसके बाद उसे text-delimited file के हिसाब से save कीजिये.
उसे अब अपने website के root directory में upload कर लीजिये. जो की एक root level folder होता है और उसे “htdocs” भी कहा जाता है और वो आपके domain name के बाद appear होता है.
अगर आप subdomains का इस्तमाल करते हैं तब आपको सभी subdomain के लिए अलग अलग robots.txt file बनाने की जरुरत है.

Robots.txt की Syntax क्या है

Robots.txt में हम कुछ syntax का इस्तमाल करते हैं जिनके बारे में हमें जानना बहुत ही जरुरी है.

• User-Agent: वो robot जो की ये सारी rule को follow करते हैं और जिनमें ये applicable हैं (e.g. “Googlebot,” etc.)

• Disallow: इसका इस्तमाल करने का मतलब है की वो pages को bots से block करना जिन्हें आप नहीं चाहते हैं कोई दूसरा उसे access कर सके. (यहाँ प्रति files के पहले disallow लिखने की जरुरत है)

• Noindex: इसके इस्तमाल से search engine आपके उन pages को index नहीं करेगा जिन्हें की आप नहीं चाहते की वो indexed हो.

• सारे User-Agent/Disallow group को separate करने के लिए एक blank line का इस्तमाल करना चाहिए, लेकिन यहाँ ध्यान दें की दो groups के बिच कोई भी blank line न हो (User-agent line और the last Disallow के बिच gap नहीं होना चाहिए .

• Hash symbol (#) का इस्तमाल comments देने के लिए किया जा सकता है within a robots.txt file, जहाँ की सभी चीज़ें जिसके पहले # की symbol होगी उन्हें ignore कर दिया जायेगा. इन्हें मुख्य रूप से whole lines or end of lines के लिए इस्तमाल किया जाता है.

• Directories और filenames case-sensitive होते हैं : “private”, “Private”, and “PRIVATE” ये सारे search engines के लिए एकदम अलग अलग हैं. चलिए के उदहारण के मदद से इसे समझते हैं. यहाँ निचे मेंने उसके बारे में लिखा है.

• यहाँ जो robot “Googlebot” है उसमें कोई भी disallowed की statement नहीं लिखी गयी है जिससे की ये free है कहीं भी जाने के लिए

• यहाँ सारे site को बंद कर दिया गया है जहाँ की “msnbot” का इस्तमाल हुआ है

• सारे robots (other than Googlebot) को /tmp/ directory or directories or files called /logs को देखने की permission नहीं है, जिन्हें की निचे explain किया गया है comments के माध्यम से e.g., tmp.htm,

/logs or logs.php. User-agent: Googlebot Disallow: User-agent: msnbot Disallow: / # Block all robots from tmp and logs directories User-agent: * Disallow: /tmp/ Disallow: /logs # for directories and files called logs

Advantages of using Robots.txt

वैसे देखा जाये तो robots.txt के इस्तमाल करने के बहुत से फा ये दे है लेकिन मैंने यहाँ कुछ बहुत ही महत्वपूर्ण फा ये दे के बारे में बता या है जिनके बारे में सभी को जानकारी होना चाहिए.

robots.txt के इस्तमाल से आपके sensitive information को private रखा जा सकता है.
Robots.txt के मदद से “canonicalization” problems को दूर रखा जा सकता है or multiple “canonical” URLs को भी रखा जा सकता है. इस problem को भूल वसतः “duplicate content” problem भी कहा जाता है .
इससे आप Google Bots की मदद भी कर सकते हैं Pages को index करने के लिए.

क्या होगा अगर हम robots.txt file का इस्तमाल न करें तब?

यदि हम कोई भी robots.txt file का इस्तमाल नहीं करते तब seach engines पर कोई पाबन्दी नहीं होती की कहाँ crawl करना है और कहाँ नहीं इससे वो सभी चीज़ों की index कर सकते हैं जो भी उन्हें आपके website में मिले. ये बहुत से websites के लिए सभी भी है लेकिन यदि हम कुछ अच्छे practice की बात करें तब हमें robots.txt file का इस्तमाल करना चाहिए क्यूंकि इससे search engines को आपके pages को index करने में आसानी होती हैं, और उन्हें सारे pages को बार बार जाने की जरूरत नहीं पड़ती.

मुझे पूर्ण आशा है की मैंने आप लोगों को Robots.txt क्या है के बारे में पूरी जानकारी दी और मैं आशा करता हूँ आप लोगों को Robots.txt के बारे में समझ आ गया होगा. मेरा आप सभी पाठकों से गुजारिस है की आप लोग भी इस जानकारी को अपने आस-पड़ोस, रिश्तेदारों, अपने मित्रों में Share करें, जिससे की हमारे बिच जागरूकता होगी और इससे सबको बहुत लाभ होगा. मुझे आप लोगों की सहयोग की आवश्यकता है जिससे मैं और भी नयी जानकारी आप लोगों तक पहुंचा सकूँ.

मेरा हमेशा से यही कोशिश रहा है की मैं हमेशा अपने readers या पाठकों का हर तरफ से हेल्प करूँ, यदि आप लोगों को किसी भी तरह की कोई भी doubt है तो आप मुझे बेझिजक पूछ सकते हैं. मैं जरुर उन Doubts का हल निकलने की कोशिश करूँगा. आपको यह लेख Robots.txt क्या है कैसा लगा हमें comment लिखकर जरूर बताएं ताकि हमें भी आपके विचारों से कुछ सीखने और कुछ सुधारने का मोका मिले.