Find Resources Bigger Than 15 MB For Better Googlebot Crawling
Googlebot एक स्वचालित और हमेशा चालू वेब क्रॉलिंग सिस्टम है जो Google की अनुक्रमणिका को ताज़ा रखता है।
वेबसाइट दुनिया भर में websize.com Google का सूचकांक 62 अरब वेब पेजों से अधिक होने का अनुमान है।
Google की खोज अनुक्रमणिका “अच्छी तरह से खत्म हो गई है” 100,000,000 गीगाबाइट आकार में।”
Googlebot और वेरिएंट (स्मार्टफ़ोन, समाचार, चित्र, आदि) में जावास्क्रिप्ट रेंडरिंग की आवृत्ति या संसाधनों के आकार के लिए कुछ बाधाएं हैं।
Google क्रॉलिंग बाधाओं का उपयोग करता है अपने स्वयं के रेंगने वाले संसाधनों और प्रणालियों की सुरक्षा के लिए।
उदाहरण के लिए, यदि कोई समाचार वेबसाइट हर 15 सेकंड में अनुशंसित लेखों को रीफ़्रेश करती है, तो Googlebot अक्सर रीफ़्रेश किए जाने वाले अनुभागों को छोड़ना शुरू कर सकता है – क्योंकि वे 15 सेकंड के बाद प्रासंगिक या मान्य नहीं होंगे।
वर्षों पहले, Google ने घोषणा की थी कि वह 15 एमबी से बड़े संसाधनों को क्रॉल या उपयोग नहीं करता है।
28 जून 2022 को, Google ने पुनर्प्रकाशित किया यह ब्लॉग पोस्ट यह बताते हुए कि यह क्रॉलिंग के लिए 15 एमबी के बाद संसाधनों के अतिरिक्त हिस्से का उपयोग नहीं करता है।
इस बात पर जोर देने के लिए कि ऐसा बहुत कम होता है, Google ने कहा कि “HTML फ़ाइल का औसत आकार 500 गुना छोटा है” 15 एमबी से।
के ऊपर, HTTPArchive.org माध्यिका डेस्कटॉप और मोबाइल HTML फ़ाइल का आकार दिखाता है। इस प्रकार, अधिकांश वेबसाइटों में क्रॉलिंग के लिए 15 एमबी की बाधा की समस्या नहीं होती है।
लेकिन, वेब एक बड़ी और अव्यवस्थित जगह है।
15 एमबी क्रॉलिंग सीमा की प्रकृति और इसका विश्लेषण करने के तरीकों को समझना SEO के लिए महत्वपूर्ण है।
एक छवि, वीडियो या बग क्रॉलिंग समस्याओं का कारण बन सकता है, और यह कम-ज्ञात एसईओ जानकारी परियोजनाओं को उनके जैविक खोज मूल्य की रक्षा करने में मदद कर सकती है।
क्या 15 एमबी Googlebot क्रॉलिंग सीमा केवल HTML दस्तावेज़ों के लिए है?
नहीं।
15 एमबी Googlebot क्रॉलिंग सीमा Google धरती, हैनकॉम हनवर्ड (.hwp), ओपनऑफ़िस टेक्स्ट (.odt), और रिच टेक्स्ट फ़ॉर्मेट (.rtf), या अन्य Googlebot-समर्थित फ़ाइल प्रकारों सहित सभी अनुक्रमित और क्रॉल करने योग्य दस्तावेज़ों के लिए है।
क्या छवि और वीडियो आकार HTML दस्तावेज़ के साथ सम्मिलित हैं?
नहीं, प्रत्येक संसाधन का मूल्यांकन 15 एमबी क्रॉलिंग सीमा द्वारा अलग से किया जाता है।
यदि HTML दस्तावेज़ 14.99 MB है, और HTML दस्तावेज़ की चुनिंदा छवि 14.99 MB है, तो वे दोनों Googlebot द्वारा क्रॉल और उपयोग किए जाएंगे।
HTML दस्तावेज़ के आकार को HTML टैग के माध्यम से लिंक किए गए संसाधनों के साथ सम्मिलित नहीं किया गया है।
क्या इनलाइन सीएसएस, जेएस, या डेटा यूआरआई ब्लोट एचटीएमएल दस्तावेज़ का आकार है?
हां, इनलाइन CSS, JS, या डेटा URI की गणना की जाती है और HTML दस्तावेज़ आकार में उपयोग किया जाता है।
इस प्रकार, यदि इनलाइन संसाधनों और आदेशों के कारण दस्तावेज़ 15 एमबी से अधिक है, तो यह विशिष्ट HTML दस्तावेज़ की क्रॉलेबिलिटी को प्रभावित करेगा।
क्या Google संसाधन को क्रॉल करना बंद कर देता है यदि यह 15 एमबी से बड़ा है?
नहीं, Google क्रॉलिंग सिस्टम 15 एमबी की सीमा से बड़े संसाधनों को क्रॉल करना बंद नहीं करते हैं।
वे फ़ाइल लाना जारी रखते हैं और 15 एमबी से छोटे हिस्से का ही उपयोग करते हैं।
15 एमबी से बड़ी छवि के लिए, Googlebot “सामग्री श्रेणी” की सहायता से छवि को 15 एमबी तक खंडित कर सकता है।
सामग्री-श्रेणी एक प्रतिक्रिया शीर्षलेख है जो Googlebot या अन्य क्रॉलर और अनुरोधकर्ताओं को आंशिक अनुरोध करने में सहायता करता है।
संसाधन आकार का मैन्युअल रूप से ऑडिट कैसे करें?
आप उपयोग कर सकते हैं गूगल क्रोम डेवलपर टूल्स मैन्युअल रूप से संसाधन आकार का ऑडिट करने के लिए।
Google क्रोम पर नीचे दिए गए चरणों का पालन करें।
- Google क्रोम के माध्यम से एक वेब पेज दस्तावेज़ खोलें।
- F12 दबाएं।
- नेटवर्क टैब पर जाएं।
- वेब पेज को रिफ्रेश करें।
- जलप्रपात के अनुसार संसाधनों का आदेश दें।
- नियन्त्रण आकार पहली पंक्ति पर कॉलम, जो HTML दस्तावेज़ का आकार दिखाता है।
नीचे, आप searchenginejournal.com होमपेज HTML दस्तावेज़ का एक उदाहरण देख सकते हैं, जो 77 KB से बड़ा है।
संसाधन आकार को स्वचालित रूप से और थोक में ऑडिट कैसे करें?
HTML दस्तावेज़ आकार को स्वचालित रूप से और थोक में ऑडिट करने के लिए पायथन का उपयोग करें। एडवर्टूल और पांडा दो उपयोगी पायथन पुस्तकालय हैं एसईओ कार्यों को स्वचालित और स्केल करें.
नीचे दिए गए निर्देशों का पालन करें।
- एडवर्टूल और पंडों को आयात करें।
- साइटमैप में सभी URL एकत्र करें।
- साइटमैप में सभी URL क्रॉल करें।
- URL को उनके HTML आकार से फ़िल्टर करें।
import advertools as adv
import pandas as pd
df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")
adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})
df = pd.read_json("output.jl", lines=True)
df[["url", "size"]].sort_values(by="size", ascending=False)
उपरोक्त कोड ब्लॉक साइटमैप URL निकालता है और उन्हें क्रॉल करता है।
कोड की अंतिम पंक्ति केवल आकार के आधार पर अवरोही क्रम के साथ डेटा फ़्रेम बनाने के लिए है।
आप ऊपर के रूप में HTML दस्तावेज़ों के आकार देख सकते हैं।
इस उदाहरण में सबसे बड़ा HTML दस्तावेज़ लगभग 700 KB है, जो एक श्रेणी पृष्ठ है।
तो, यह वेबसाइट 15 एमबी बाधाओं के लिए सुरक्षित है। लेकिन, हम इससे आगे की जांच कर सकते हैं।
CSS और JS संसाधनों के आकार की जाँच कैसे करें?
कठपुतली का उपयोग सीएसएस और जेएस संसाधनों के आकार की जांच के लिए किया जाता है।
कठपुतली चलानेवाला ब्राउज़र ऑटोमेशन और वेबसाइट परीक्षणों के लिए हेडलेस मोड के साथ Google क्रोम को नियंत्रित करने के लिए एक NodeJS पैकेज है।
अधिकांश SEO पेशेवर उपयोग करते हैं लाइटहाउस या पेज स्पीड इनसाइट्स एपीआई उनके प्रदर्शन परीक्षणों के लिए। लेकिन, कठपुतली की मदद से हर तकनीकी पहलू और अनुकरण का विश्लेषण किया जा सकता है।
नीचे दिए गए कोड ब्लॉक का पालन करें।
const puppeteer = require('puppeteer');
const XLSX = require("xlsx");
const path = require("path");
(async () => {
const browser = await puppeteer.launch({
headless: false
});
const page = await browser.newPage();
await page.goto('https://www.holisticseo.digital');
console.log('Page loaded');
const perfEntries = JSON.parse(
await page.evaluate(() => JSON.stringify(performance.getEntries()))
);
console.log(perfEntries);
const workSheetColumnName = [
"name",
"transferSize",
"encodedSize",
"decodedSize"
]
const urlObject = new URL("https://www.holisticseo.digital")
const hostName = urlObject.hostname
const domainName = hostName.replace("\www.|.com", "");
console.log(hostName)
console.log(domainName)
const workSheetName = "Users";
const filePath = `./${domainName}`;
const userList = perfEntries;
const exportPerfToExcel = (userList) => {
const data = perfEntries.map(url => {
return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];
})
const workBook = XLSX.utils.book_new();
const workSheetData = [
workSheetColumnName,
...data
]
const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);
XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);
XLSX.writeFile(workBook, path.resolve(filePath));
return true;
}
exportPerfToExcel(userList)
//browser.close();
})();
यदि आप जावास्क्रिप्ट नहीं जानते हैं या किसी भी प्रकार के कठपुतली ट्यूटोरियल को पूरा नहीं किया है, तो आपके लिए इन कोड ब्लॉकों को समझना थोड़ा कठिन हो सकता है। लेकिन, यह वास्तव में सरल है।
यह मूल रूप से एक यूआरएल खोलता है, सभी संसाधनों को लेता है, और उनका “ट्रांसफरसाइज”, “एन्कोडेडसाइज” और “डिकोडसाइज” देता है।
इस उदाहरण में, “डिकोडेडसाइज़” वह आकार है जिस पर हमें ध्यान देने की आवश्यकता है। नीचे, आप परिणाम को XLS फ़ाइल के रूप में देख सकते हैं।
यदि आप प्रत्येक URL के लिए इन प्रक्रियाओं को फिर से स्वचालित करना चाहते हैं, तो आपको “await.page.goto()” कमांड में लूप के लिए उपयोग करने की आवश्यकता होगी।
अपनी पसंद के अनुसार, आप प्रत्येक वेब पेज को एक अलग वर्कशीट में रख सकते हैं या इसे उसी वर्कशीट में संलग्न करके संलग्न कर सकते हैं।
निष्कर्ष
15 एमबी की Googlebot क्रॉलिंग बाधा एक दुर्लभ संभावना है जो आपकी तकनीकी एसईओ प्रक्रियाओं को अभी के लिए अवरुद्ध कर देगी, लेकिन HTTPArchive.org दिखाता है कि औसत वीडियो, छवि और जावास्क्रिप्ट पिछले कुछ वर्षों में आकार में वृद्धि हुई है।
डेस्कटॉप पर औसत छवि आकार 1 एमबी से अधिक हो गया है।
वीडियो बाइट कुल 5 एमबी से अधिक है।
दूसरे शब्दों में, समय-समय पर, इन संसाधनों – या इन संसाधनों के कुछ हिस्सों – को छोड़ दिया जा सकता है Googlebot.
इस प्रकार, आपको समय निकालने के लिए बल्क विधियों के साथ स्वचालित रूप से उन्हें नियंत्रित करने में सक्षम होना चाहिए और स्किप नहीं करना चाहिए।
और अधिक संसाधनों:
विशेष रुप से प्रदर्शित छवि: बेस्टफॉरबेस्ट / शटरस्टॉक
window.addEventListener( 'load', function() { setTimeout(function(){ striggerEvent( 'load2' ); }, 2000); });
window.addEventListener( 'load2', function() {
if( sopp != 'yes' && addtl_consent != '1~' && !ss_u ){
!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');
if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ['LDU'], 1, 1000); }else{ fbq('dataProcessingOptions', []); }
fbq('init', '1321385257908563');
fbq('track', 'PageView');
fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'large-resources-googlebot-crawling', content_category: 'seo' }); } });