Information Retrieval: An Introduction For SEOs
जब हम सूचना पुनर्प्राप्ति के बारे में बात करते हैं, तो एसईओ पेशेवरों के रूप में, हम सूचना संग्रह चरण – क्रॉलिंग पर बहुत अधिक ध्यान केंद्रित करते हैं।
इस चरण के दौरान, एक खोज इंजन उन URL को खोजेगा और क्रॉल करेगा, जिन तक उसकी पहुंच है (अन्य कारकों के आधार पर मात्रा और चौड़ाई जिसे हम बोलचाल की भाषा में एक के रूप में संदर्भित करते हैं) क्रॉल बजट)
क्रॉल चरण कुछ ऐसा नहीं है जिस पर हम इस लेख में ध्यान केंद्रित करने जा रहे हैं, न ही मैं इस बारे में गहराई से जा रहा हूं कि अनुक्रमण कैसे काम करता है।
यदि आप क्रॉल और इंडेक्सिंग पर अधिक पढ़ना चाहते हैं, तो आप ऐसा कर सकते हैं यहां.
इस लेख में, मैं सूचना पुनर्प्राप्ति की कुछ बुनियादी बातों को शामिल करूंगा, जो समझने पर, रैंकिंग प्रदर्शन के लिए वेब पेजों को बेहतर ढंग से अनुकूलित करने में आपकी मदद कर सकती हैं।
यह आपको बेहतर विश्लेषण करने में भी मदद कर सकता है एल्गोरिथम परिवर्तन और खोज इंजन परिणाम पृष्ठ (SERP) अद्यतन।
यह समझने और सराहना करने के लिए कि आधुनिक समय के खोज इंजन व्यावहारिक सूचना पुनर्प्राप्ति को कैसे संसाधित करते हैं, हमें इंटरनेट पर सूचना पुनर्प्राप्ति के इतिहास को समझने की आवश्यकता है – विशेष रूप से यह कैसे खोज इंजन प्रक्रियाओं से संबंधित है।
डिजिटल सूचना पुनर्प्राप्ति और खोज इंजन द्वारा अपनाई गई नींव प्रौद्योगिकियों के संबंध में, हम 1960 और कॉर्नेल विश्वविद्यालय में वापस जा सकते हैं, जहां जेरार्ड साल्टन ने एक टीम का नेतृत्व किया जिसने स्मार्ट सूचना पुनर्प्राप्ति प्रणाली विकसित की।
सैल्टन को सूचना पुनर्प्राप्ति के लिए वेक्टर स्पेस मॉडलिंग के विकास और उपयोग का श्रेय दिया जाता है।
वेक्टर अंतरिक्ष मॉडल
वेक्टर अंतरिक्ष मॉडल हैं डेटा विज्ञान समुदाय में स्वीकार किया गया कैसे खोज इंजन “खोज” और अमेज़ॅन जैसे प्लेटफ़ॉर्म अनुशंसाएं प्रदान करते हैं, में एक प्रमुख तंत्र के रूप में।
यह विधि एक प्रोसेसर, जैसे कि Google को प्रश्नों के साथ विभिन्न दस्तावेज़ों की तुलना करने की अनुमति देती है, जब प्रश्नों को वैक्टर के रूप में दर्शाया जाता है।
Google ने अपने दस्तावेज़ों में इसे वेक्टर समानता खोज, या “निकटतम पड़ोसी खोज” के रूप में संदर्भित किया है, जिसे 1973 में डोनाल्ड नुथ द्वारा परिभाषित किया गया था।
एक पारंपरिक कीवर्ड खोज में, प्रोसेसर प्रासंगिक सामग्री खोजने के लिए डेटाबेस के भीतर कीवर्ड, टैग, लेबल आदि का उपयोग करेगा।
यह काफी सीमित है, क्योंकि यह डेटाबेस के भीतर खोज क्षेत्र को संकुचित करता है क्योंकि उत्तर एक द्विआधारी हाँ या नहीं है। प्रसंस्करण करते समय यह विधि भी सीमित हो सकती है समानार्थी शब्द और संबंधित संस्थाओं।
निकटता के संदर्भ में दो संस्थाएं जितनी करीब होती हैं, वैक्टर के बीच उतनी ही कम जगह होती है, और समानता/सटीकता में उन्हें उतना ही अधिक माना जाता है।
इसका मुकाबला करने और कई सामान्य व्याख्याओं के साथ प्रश्नों के परिणाम प्रदान करने के लिए, Google विभिन्न अर्थों, समानार्थक शब्दों और संस्थाओं को एक साथ जोड़ने के लिए वेक्टर समानता का उपयोग करता है।
इसका एक अच्छा उदाहरण है जब आप मेरा नाम गूगल करते हैं।
गूगल, [dan taylor] हो सकता है:
- मैं, एसईओ व्यक्ति।
- एक ब्रिटिश खेल पत्रकार।
- एक स्थानीय समाचार संवाददाता।
- फॉरेस्ट गंप के लेफ्टिनेंट डैन टेलर।
- एक फोटोग्राफर।
- एक मॉडल-निर्माता।
द्विआधारी हाँ/नहीं मानदंड के साथ पारंपरिक खोजशब्द खोज का उपयोग करते हुए, आपको परिणामों का यह प्रसार पृष्ठ एक पर नहीं मिलेगा।
वेक्टर खोज के साथ, प्रोसेसर डेटाबेस के भीतर विभिन्न संस्थाओं और वैक्टरों के बीच समानता और संबंधों के आधार पर एक खोज परिणाम पृष्ठ तैयार कर सकता है।
आप कंपनी का ब्लॉग पढ़ सकते हैं यहां इस बारे में अधिक जानने के लिए कि Google अनेक उत्पादों में इसका उपयोग कैसे करता है।
समानता मिलान
इस तरह से दस्तावेज़ों की तुलना करते समय, खोज इंजन संभवतः क्वेरी टर्म वेटिंग (QTW) और समानता गुणांक के संयोजन का उपयोग करते हैं।
QTW क्वेरी में विशिष्ट शब्दों के लिए एक भारोत्तोलन लागू करता है, जिसे तब वेक्टर स्पेस मॉडल का उपयोग करके समानता गुणांक की गणना करने के लिए उपयोग किया जाता है और कोसाइन गुणांक का उपयोग करके गणना की जाती है।
कोसाइन समानता दो वैक्टर के बीच समानता को मापती है और, पाठ विश्लेषण में, दस्तावेज़ समानता को मापने के लिए उपयोग की जाती है।
यह एक संभावित तंत्र है कि कैसे खोज इंजन एक वेबसाइट पर डुप्लिकेट सामग्री और मूल्य प्रस्तावों का निर्धारण करते हैं।
कोसाइन को -1 और 1 के बीच मापा जाता है।
परंपरागत रूप से एक कोसाइन समानता ग्राफ पर, इसे 0 और 1 के बीच मापा जाएगा, जिसमें 0 अधिकतम असमानता, या ऑर्थोगोनल होगा, और 1 अधिकतम समानता होगी।
एक सूचकांक की भूमिका
SEO में, हम इंडेक्स, इंडेक्सिंग और इंडेक्सिंग समस्याओं के बारे में बहुत बात करते हैं – लेकिन हम सर्च इंजन में इंडेक्स की भूमिका के बारे में सक्रिय रूप से बात नहीं करते हैं।
इंडेक्स का उद्देश्य जानकारी को स्टोर करना है, जिसे Google टियर इंडेक्सिंग सिस्टम और शार्क के माध्यम से डेटा भंडार के रूप में कार्य करता है।
ऐसा इसलिए है क्योंकि यह वेबपेजों को दूरस्थ रूप से एक्सेस (क्रॉल) करने के लिए अवास्तविक, लाभहीन और एक खराब एंड-यूज़र अनुभव है, उनकी सामग्री को पार्स करता है, स्कोर करता है, और फिर वास्तविक समय में एक SERP प्रस्तुत करता है।
आमतौर पर, एक आधुनिक सर्च इंजन इंडेक्स में प्रत्येक दस्तावेज़ की पूरी कॉपी नहीं होती है, लेकिन यह मुख्य बिंदुओं और डेटा का एक डेटाबेस होता है जिसे टोकन किया गया है। दस्तावेज़ तब एक अलग कैश में रहेगा।
जबकि हम ठीक से उन प्रक्रियाओं के बारे में नहीं जानते हैं जो Google जैसे खोज इंजन अपनी सूचना पुनर्प्राप्ति प्रणाली के हिस्से के रूप में करेंगे, उनके चरणों की संभावना होगी:
- संरचनात्मक विश्लेषण – पाठ प्रारूप और संरचना, सूचियाँ, तालिकाएँ, चित्र, आदि।
- स्टेमिंग – किसी शब्द की विविधता को उसकी जड़ तक कम करना। उदाहरण के लिए, “खोज” और “खोज” को “खोज” कर दिया जाएगा।
- शाब्दिक विश्लेषण – दस्तावेज़ को शब्दों की सूची में बदलना और फिर तारीखों, लेखकों और शब्द आवृत्ति जैसे महत्वपूर्ण कारकों की पहचान करने के लिए पार्स करना। ध्यान दें, यह TF*IDF के समान नहीं है।
हम इस चरण के दौरान अन्य विचारों और डेटा बिंदुओं को भी ध्यान में रखते हैं, जैसे कि बैकलिंक्स, स्रोत प्रकार, दस्तावेज़ गुणवत्ता सीमा को पूरा करता है या नहीं, आंतरिक लिंकिंग, मुख्य सामग्री / सहायक सामग्री, आदि।
शुद्धता और पोस्ट-रिट्रीवल
2016 में, पॉल हाहर ने इस बात की बहुत जानकारी दी कि Google अपनी प्रक्रिया की “सफलता” को कैसे मापता है और यह भी कि यह पुनर्प्राप्ति के बाद के समायोजन को कैसे लागू करता है।
आप उनकी प्रस्तुति देख सकते हैं यहां.
अधिकांश सूचना पुनर्प्राप्ति प्रणालियों में, एक अच्छे परिणाम सेट को वापस करने में सिस्टम कितना सफल है, इसके दो प्राथमिक उपाय हैं।
ये सटीक और स्मरण हैं।
शुद्धता
लौटाए गए दस्तावेज़ों की संख्या जो प्रासंगिक हैं बनाम लौटाए गए दस्तावेज़ों की कुल संख्या।
कई वेबसाइटों ने हाल के महीनों में रैंक किए गए कीवर्ड की कुल संख्या में गिरावट देखी है (जैसे अजीब, किनारे वाले कीवर्ड जिनके लिए रैंकिंग में उनका कोई अधिकार नहीं था)। हम अनुमान लगा सकते हैं कि खोज इंजन अधिक सटीकता के लिए सूचना पुनर्प्राप्ति प्रणाली को परिष्कृत कर रहे हैं।
याद करना
प्रासंगिक दस्तावेज़ों की संख्या बनाम लौटाए गए प्रासंगिक दस्तावेज़ों की कुल संख्या।
खोज इंजन रिकॉल की तुलना में सटीकता की ओर अधिक ध्यान देते हैं, क्योंकि सटीकता बेहतर खोज परिणाम पृष्ठों और अधिक उपयोगकर्ता संतुष्टि की ओर ले जाती है। यह अधिक दस्तावेज़ों को वापस करने और आवश्यकता से अधिक डेटा को संसाधित करने में भी कम सिस्टम-गहन है।
निष्कर्ष
उपयोग किए गए विभिन्न सूत्रों और तंत्रों के कारण सूचना पुनर्प्राप्ति का अभ्यास जटिल हो सकता है।
उदाहरण के लिए:
जैसा कि हम पूरी तरह से नहीं जानते या समझते हैं कि यह प्रक्रिया खोज इंजन में कैसे काम करती है, हमें टीएफ * आईडीएफ जैसे गेम मेट्रिक्स की कोशिश करने की तुलना में प्रदान की गई मूलभूत और दिशानिर्देशों पर अधिक ध्यान केंद्रित करना चाहिए (और वे कैसे वजन करते हैं, इसमें भिन्नता है) समग्र परिणाम में)।
और अधिक संसाधनों:
विशेष रुप से प्रदर्शित छवि: BRO.vector/Shutterstock
window.addEventListener( 'load', function() { setTimeout(function(){ striggerEvent( 'load2' ); }, 2000); });
window.addEventListener( 'load2', function() {
if( sopp != 'yes' && addtl_consent != '1~' && !ss_u ){
!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');
if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ['LDU'], 1, 1000); }else{ fbq('dataProcessingOptions', []); }
fbq('init', '1321385257908563');
fbq('track', 'PageView');
fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'information-retrieval-seo', content_category: 'seo technical-seo' }); } });