Technology

Find Resources Bigger Than 15 MB For Better Googlebot Crawling

Googlebot एक स्वचालित और हमेशा चालू वेब क्रॉलिंग सिस्टम है जो Google की अनुक्रमणिका को ताज़ा रखता है।

वेबसाइट दुनिया भर में websize.com Google का सूचकांक 62 अरब वेब पेजों से अधिक होने का अनुमान है।

Google की खोज अनुक्रमणिका “अच्छी तरह से खत्म हो गई है” 100,000,000 गीगाबाइट आकार में।”

Googlebot और वेरिएंट (स्मार्टफ़ोन, समाचार, चित्र, आदि) में जावास्क्रिप्ट रेंडरिंग की आवृत्ति या संसाधनों के आकार के लिए कुछ बाधाएं हैं।

Google क्रॉलिंग बाधाओं का उपयोग करता है अपने स्वयं के रेंगने वाले संसाधनों और प्रणालियों की सुरक्षा के लिए।

उदाहरण के लिए, यदि कोई समाचार वेबसाइट हर 15 सेकंड में अनुशंसित लेखों को रीफ़्रेश करती है, तो Googlebot अक्सर रीफ़्रेश किए जाने वाले अनुभागों को छोड़ना शुरू कर सकता है – क्योंकि वे 15 सेकंड के बाद प्रासंगिक या मान्य नहीं होंगे।

वर्षों पहले, Google ने घोषणा की थी कि वह 15 एमबी से बड़े संसाधनों को क्रॉल या उपयोग नहीं करता है।

28 जून 2022 को, Google ने पुनर्प्रकाशित किया यह ब्लॉग पोस्ट यह बताते हुए कि यह क्रॉलिंग के लिए 15 एमबी के बाद संसाधनों के अतिरिक्त हिस्से का उपयोग नहीं करता है।

इस बात पर जोर देने के लिए कि ऐसा बहुत कम होता है, Google ने कहा कि “HTML फ़ाइल का औसत आकार 500 गुना छोटा है” 15 एमबी से।

लेखक का स्क्रीनशॉट, अगस्त 2022

के ऊपर, HTTPArchive.org माध्यिका डेस्कटॉप और मोबाइल HTML फ़ाइल का आकार दिखाता है। इस प्रकार, अधिकांश वेबसाइटों में क्रॉलिंग के लिए 15 एमबी की बाधा की समस्या नहीं होती है।

लेकिन, वेब एक बड़ी और अव्यवस्थित जगह है।

15 एमबी क्रॉलिंग सीमा की प्रकृति और इसका विश्लेषण करने के तरीकों को समझना SEO के लिए महत्वपूर्ण है।

एक छवि, वीडियो या बग क्रॉलिंग समस्याओं का कारण बन सकता है, और यह कम-ज्ञात एसईओ जानकारी परियोजनाओं को उनके जैविक खोज मूल्य की रक्षा करने में मदद कर सकती है।

क्या 15 एमबी Googlebot क्रॉलिंग सीमा केवल HTML दस्तावेज़ों के लिए है?

नहीं।

15 एमबी Googlebot क्रॉलिंग सीमा Google धरती, हैनकॉम हनवर्ड (.hwp), ओपनऑफ़िस टेक्स्ट (.odt), और रिच टेक्स्ट फ़ॉर्मेट (.rtf), या अन्य Googlebot-समर्थित फ़ाइल प्रकारों सहित सभी अनुक्रमित और क्रॉल करने योग्य दस्तावेज़ों के लिए है।

क्या छवि और वीडियो आकार HTML दस्तावेज़ के साथ सम्‍मिलित हैं?

नहीं, प्रत्येक संसाधन का मूल्यांकन 15 एमबी क्रॉलिंग सीमा द्वारा अलग से किया जाता है।

यदि HTML दस्तावेज़ 14.99 MB है, और HTML दस्तावेज़ की चुनिंदा छवि 14.99 MB है, तो वे दोनों Googlebot द्वारा क्रॉल और उपयोग किए जाएंगे।

HTML दस्तावेज़ के आकार को HTML टैग के माध्यम से लिंक किए गए संसाधनों के साथ सम्‍मिलित नहीं किया गया है।

क्या इनलाइन सीएसएस, जेएस, या डेटा यूआरआई ब्लोट एचटीएमएल दस्तावेज़ का आकार है?

हां, इनलाइन CSS, JS, या डेटा URI की गणना की जाती है और HTML दस्तावेज़ आकार में उपयोग किया जाता है।

इस प्रकार, यदि इनलाइन संसाधनों और आदेशों के कारण दस्तावेज़ 15 एमबी से अधिक है, तो यह विशिष्ट HTML दस्तावेज़ की क्रॉलेबिलिटी को प्रभावित करेगा।

क्या Google संसाधन को क्रॉल करना बंद कर देता है यदि यह 15 एमबी से बड़ा है?

नहीं, Google क्रॉलिंग सिस्टम 15 एमबी की सीमा से बड़े संसाधनों को क्रॉल करना बंद नहीं करते हैं।

वे फ़ाइल लाना जारी रखते हैं और 15 एमबी से छोटे हिस्से का ही उपयोग करते हैं।

15 एमबी से बड़ी छवि के लिए, Googlebot “सामग्री श्रेणी” की सहायता से छवि को 15 एमबी तक खंडित कर सकता है।

सामग्री-श्रेणी एक प्रतिक्रिया शीर्षलेख है जो Googlebot या अन्य क्रॉलर और अनुरोधकर्ताओं को आंशिक अनुरोध करने में सहायता करता है।

संसाधन आकार का मैन्युअल रूप से ऑडिट कैसे करें?

आप उपयोग कर सकते हैं गूगल क्रोम डेवलपर टूल्स मैन्युअल रूप से संसाधन आकार का ऑडिट करने के लिए।

Google क्रोम पर नीचे दिए गए चरणों का पालन करें।

  • Google क्रोम के माध्यम से एक वेब पेज दस्तावेज़ खोलें।
  • F12 दबाएं।
  • नेटवर्क टैब पर जाएं।
  • वेब पेज को रिफ्रेश करें।
  • जलप्रपात के अनुसार संसाधनों का आदेश दें।
  • नियन्त्रण आकार पहली पंक्ति पर कॉलम, जो HTML दस्तावेज़ का आकार दिखाता है।

नीचे, आप searchenginejournal.com होमपेज HTML दस्तावेज़ का एक उदाहरण देख सकते हैं, जो 77 KB से बड़ा है।

 लेखक द्वारा स्क्रीनशॉट, अगस्त 2022

संसाधन आकार को स्वचालित रूप से और थोक में ऑडिट कैसे करें?

HTML दस्तावेज़ आकार को स्वचालित रूप से और थोक में ऑडिट करने के लिए पायथन का उपयोग करें। एडवर्टूल और पांडा दो उपयोगी पायथन पुस्तकालय हैं एसईओ कार्यों को स्वचालित और स्केल करें.

नीचे दिए गए निर्देशों का पालन करें।

  • एडवर्टूल और पंडों को आयात करें।
  • साइटमैप में सभी URL एकत्र करें।
  • साइटमैप में सभी URL क्रॉल करें।
  • URL को उनके HTML आकार से फ़िल्टर करें।
import advertools as adv

import pandas as pd

df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")

adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})

df = pd.read_json("output.jl", lines=True)

df[["url", "size"]].sort_values(by="size", ascending=False)

उपरोक्त कोड ब्लॉक साइटमैप URL निकालता है और उन्हें क्रॉल करता है।

कोड की अंतिम पंक्ति केवल आकार के आधार पर अवरोही क्रम के साथ डेटा फ़्रेम बनाने के लिए है।

 लेखक द्वारा बनाई गई छवि, अगस्त 2022

आप ऊपर के रूप में HTML दस्तावेज़ों के आकार देख सकते हैं।

इस उदाहरण में सबसे बड़ा HTML दस्तावेज़ लगभग 700 KB है, जो एक श्रेणी पृष्ठ है।

तो, यह वेबसाइट 15 एमबी बाधाओं के लिए सुरक्षित है। लेकिन, हम इससे आगे की जांच कर सकते हैं।

CSS और JS संसाधनों के आकार की जाँच कैसे करें?

कठपुतली का उपयोग सीएसएस और जेएस संसाधनों के आकार की जांच के लिए किया जाता है।

कठपुतली चलानेवाला ब्राउज़र ऑटोमेशन और वेबसाइट परीक्षणों के लिए हेडलेस मोड के साथ Google क्रोम को नियंत्रित करने के लिए एक NodeJS पैकेज है।

अधिकांश SEO पेशेवर उपयोग करते हैं लाइटहाउस या पेज स्पीड इनसाइट्स एपीआई उनके प्रदर्शन परीक्षणों के लिए। लेकिन, कठपुतली की मदद से हर तकनीकी पहलू और अनुकरण का विश्लेषण किया जा सकता है।

नीचे दिए गए कोड ब्लॉक का पालन करें।

const puppeteer = require('puppeteer');

const XLSX = require("xlsx");

const path = require("path");




(async () => {

    const browser = await puppeteer.launch({

        headless: false

    });




    const page = await browser.newPage();

    await page.goto('https://www.holisticseo.digital');

    console.log('Page loaded');

    const perfEntries = JSON.parse(

        await page.evaluate(() => JSON.stringify(performance.getEntries()))

      );

     

      console.log(perfEntries);

     

      const workSheetColumnName = [

          "name",

          "transferSize",

          "encodedSize",

          "decodedSize"

          ]

          const urlObject = new URL("https://www.holisticseo.digital")

          const hostName = urlObject.hostname

          const domainName = hostName.replace("\www.|.com", "");

          console.log(hostName)

          console.log(domainName)

          const workSheetName = "Users";

          const filePath = `./${domainName}`;

          const userList = perfEntries;

         

         

          const exportPerfToExcel = (userList) => {

              const data = perfEntries.map(url => {

                  return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];

              })

              const workBook = XLSX.utils.book_new();

              const workSheetData = [

                  workSheetColumnName,

                  ...data

              ]

              const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);

              XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);

              XLSX.writeFile(workBook, path.resolve(filePath));

              return true;

         

          }

          exportPerfToExcel(userList)

       

          //browser.close();

   

})();

यदि आप जावास्क्रिप्ट नहीं जानते हैं या किसी भी प्रकार के कठपुतली ट्यूटोरियल को पूरा नहीं किया है, तो आपके लिए इन कोड ब्लॉकों को समझना थोड़ा कठिन हो सकता है। लेकिन, यह वास्तव में सरल है।

यह मूल रूप से एक यूआरएल खोलता है, सभी संसाधनों को लेता है, और उनका “ट्रांसफरसाइज”, “एन्कोडेडसाइज” और “डिकोडसाइज” देता है।

इस उदाहरण में, “डिकोडेडसाइज़” वह आकार है जिस पर हमें ध्यान देने की आवश्यकता है। नीचे, आप परिणाम को XLS फ़ाइल के रूप में देख सकते हैं।

 वेबसाइट से संसाधनों का बाइट आकार।

यदि आप प्रत्येक URL के लिए इन प्रक्रियाओं को फिर से स्वचालित करना चाहते हैं, तो आपको “await.page.goto()” कमांड में लूप के लिए उपयोग करने की आवश्यकता होगी।

अपनी पसंद के अनुसार, आप प्रत्येक वेब पेज को एक अलग वर्कशीट में रख सकते हैं या इसे उसी वर्कशीट में संलग्न करके संलग्न कर सकते हैं।

निष्कर्ष

15 एमबी की Googlebot क्रॉलिंग बाधा एक दुर्लभ संभावना है जो आपकी तकनीकी एसईओ प्रक्रियाओं को अभी के लिए अवरुद्ध कर देगी, लेकिन HTTPArchive.org दिखाता है कि औसत वीडियो, छवि और जावास्क्रिप्ट पिछले कुछ वर्षों में आकार में वृद्धि हुई है।

डेस्कटॉप पर औसत छवि आकार 1 एमबी से अधिक हो गया है।

 लेखक द्वारा स्क्रीनशॉट, अगस्त 2022

वीडियो बाइट कुल 5 एमबी से अधिक है।

 लेखक द्वारा स्क्रीनशॉट, अगस्त 2022

दूसरे शब्दों में, समय-समय पर, इन संसाधनों – या इन संसाधनों के कुछ हिस्सों – को छोड़ दिया जा सकता है Googlebot.

इस प्रकार, आपको समय निकालने के लिए बल्क विधियों के साथ स्वचालित रूप से उन्हें नियंत्रित करने में सक्षम होना चाहिए और स्किप नहीं करना चाहिए।

और अधिक संसाधनों:


विशेष रुप से प्रदर्शित छवि: बेस्टफॉरबेस्ट / शटरस्टॉक

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button
Ads Blocker Image Powered by Code Help Pro

Ads Blocker Detected!!!

We have detected that you are using extensions to block ads. Please support us by disabling these ads blocker.