Technology

Information Retrieval: An Introduction For SEOs

जब हम सूचना पुनर्प्राप्ति के बारे में बात करते हैं, तो एसईओ पेशेवरों के रूप में, हम सूचना संग्रह चरण – क्रॉलिंग पर बहुत अधिक ध्यान केंद्रित करते हैं।

इस चरण के दौरान, एक खोज इंजन उन URL को खोजेगा और क्रॉल करेगा, जिन तक उसकी पहुंच है (अन्य कारकों के आधार पर मात्रा और चौड़ाई जिसे हम बोलचाल की भाषा में एक के रूप में संदर्भित करते हैं) क्रॉल बजट)

क्रॉल चरण कुछ ऐसा नहीं है जिस पर हम इस लेख में ध्यान केंद्रित करने जा रहे हैं, न ही मैं इस बारे में गहराई से जा रहा हूं कि अनुक्रमण कैसे काम करता है।

यदि आप क्रॉल और इंडेक्सिंग पर अधिक पढ़ना चाहते हैं, तो आप ऐसा कर सकते हैं यहां.

इस लेख में, मैं सूचना पुनर्प्राप्ति की कुछ बुनियादी बातों को शामिल करूंगा, जो समझने पर, रैंकिंग प्रदर्शन के लिए वेब पेजों को बेहतर ढंग से अनुकूलित करने में आपकी मदद कर सकती हैं।

यह आपको बेहतर विश्लेषण करने में भी मदद कर सकता है एल्गोरिथम परिवर्तन और खोज इंजन परिणाम पृष्ठ (SERP) अद्यतन।

यह समझने और सराहना करने के लिए कि आधुनिक समय के खोज इंजन व्यावहारिक सूचना पुनर्प्राप्ति को कैसे संसाधित करते हैं, हमें इंटरनेट पर सूचना पुनर्प्राप्ति के इतिहास को समझने की आवश्यकता है – विशेष रूप से यह कैसे खोज इंजन प्रक्रियाओं से संबंधित है।

डिजिटल सूचना पुनर्प्राप्ति और खोज इंजन द्वारा अपनाई गई नींव प्रौद्योगिकियों के संबंध में, हम 1960 और कॉर्नेल विश्वविद्यालय में वापस जा सकते हैं, जहां जेरार्ड साल्टन ने एक टीम का नेतृत्व किया जिसने स्मार्ट सूचना पुनर्प्राप्ति प्रणाली विकसित की।

सैल्टन को सूचना पुनर्प्राप्ति के लिए वेक्टर स्पेस मॉडलिंग के विकास और उपयोग का श्रेय दिया जाता है।

वेक्टर अंतरिक्ष मॉडल

वेक्टर अंतरिक्ष मॉडल हैं डेटा विज्ञान समुदाय में स्वीकार किया गया कैसे खोज इंजन “खोज” और अमेज़ॅन जैसे प्लेटफ़ॉर्म अनुशंसाएं प्रदान करते हैं, में एक प्रमुख तंत्र के रूप में।

यह विधि एक प्रोसेसर, जैसे कि Google को प्रश्नों के साथ विभिन्न दस्तावेज़ों की तुलना करने की अनुमति देती है, जब प्रश्नों को वैक्टर के रूप में दर्शाया जाता है।

Google ने अपने दस्तावेज़ों में इसे वेक्टर समानता खोज, या “निकटतम पड़ोसी खोज” के रूप में संदर्भित किया है, जिसे 1973 में डोनाल्ड नुथ द्वारा परिभाषित किया गया था।

एक पारंपरिक कीवर्ड खोज में, प्रोसेसर प्रासंगिक सामग्री खोजने के लिए डेटाबेस के भीतर कीवर्ड, टैग, लेबल आदि का उपयोग करेगा।

यह काफी सीमित है, क्योंकि यह डेटाबेस के भीतर खोज क्षेत्र को संकुचित करता है क्योंकि उत्तर एक द्विआधारी हाँ या नहीं है। प्रसंस्करण करते समय यह विधि भी सीमित हो सकती है समानार्थी शब्द और संबंधित संस्थाओं।

निकटता के संदर्भ में दो संस्थाएं जितनी करीब होती हैं, वैक्टर के बीच उतनी ही कम जगह होती है, और समानता/सटीकता में उन्हें उतना ही अधिक माना जाता है।

इसका मुकाबला करने और कई सामान्य व्याख्याओं के साथ प्रश्नों के परिणाम प्रदान करने के लिए, Google विभिन्न अर्थों, समानार्थक शब्दों और संस्थाओं को एक साथ जोड़ने के लिए वेक्टर समानता का उपयोग करता है।

इसका एक अच्छा उदाहरण है जब आप मेरा नाम गूगल करते हैं।

गूगल, [dan taylor] हो सकता है:

  • मैं, एसईओ व्यक्ति।
  • एक ब्रिटिश खेल पत्रकार।
  • एक स्थानीय समाचार संवाददाता।
  • फॉरेस्ट गंप के लेफ्टिनेंट डैन टेलर।
  • एक फोटोग्राफर।
  • एक मॉडल-निर्माता।

द्विआधारी हाँ/नहीं मानदंड के साथ पारंपरिक खोजशब्द खोज का उपयोग करते हुए, आपको परिणामों का यह प्रसार पृष्ठ एक पर नहीं मिलेगा।

वेक्टर खोज के साथ, प्रोसेसर डेटाबेस के भीतर विभिन्न संस्थाओं और वैक्टरों के बीच समानता और संबंधों के आधार पर एक खोज परिणाम पृष्ठ तैयार कर सकता है।

आप कंपनी का ब्लॉग पढ़ सकते हैं यहां इस बारे में अधिक जानने के लिए कि Google अनेक उत्पादों में इसका उपयोग कैसे करता है।

समानता मिलान

इस तरह से दस्तावेज़ों की तुलना करते समय, खोज इंजन संभवतः क्वेरी टर्म वेटिंग (QTW) और समानता गुणांक के संयोजन का उपयोग करते हैं।

QTW क्वेरी में विशिष्ट शब्दों के लिए एक भारोत्तोलन लागू करता है, जिसे तब वेक्टर स्पेस मॉडल का उपयोग करके समानता गुणांक की गणना करने के लिए उपयोग किया जाता है और कोसाइन गुणांक का उपयोग करके गणना की जाती है।

कोसाइन समानता दो वैक्टर के बीच समानता को मापती है और, पाठ विश्लेषण में, दस्तावेज़ समानता को मापने के लिए उपयोग की जाती है।

यह एक संभावित तंत्र है कि कैसे खोज इंजन एक वेबसाइट पर डुप्लिकेट सामग्री और मूल्य प्रस्तावों का निर्धारण करते हैं।

कोसाइन को -1 और 1 के बीच मापा जाता है।

परंपरागत रूप से एक कोसाइन समानता ग्राफ पर, इसे 0 और 1 के बीच मापा जाएगा, जिसमें 0 अधिकतम असमानता, या ऑर्थोगोनल होगा, और 1 अधिकतम समानता होगी।

एक सूचकांक की भूमिका

SEO में, हम इंडेक्स, इंडेक्सिंग और इंडेक्सिंग समस्याओं के बारे में बहुत बात करते हैं – लेकिन हम सर्च इंजन में इंडेक्स की भूमिका के बारे में सक्रिय रूप से बात नहीं करते हैं।

इंडेक्स का उद्देश्य जानकारी को स्टोर करना है, जिसे Google टियर इंडेक्सिंग सिस्टम और शार्क के माध्यम से डेटा भंडार के रूप में कार्य करता है।

ऐसा इसलिए है क्योंकि यह वेबपेजों को दूरस्थ रूप से एक्सेस (क्रॉल) करने के लिए अवास्तविक, लाभहीन और एक खराब एंड-यूज़र अनुभव है, उनकी सामग्री को पार्स करता है, स्कोर करता है, और फिर वास्तविक समय में एक SERP प्रस्तुत करता है।

आमतौर पर, एक आधुनिक सर्च इंजन इंडेक्स में प्रत्येक दस्तावेज़ की पूरी कॉपी नहीं होती है, लेकिन यह मुख्य बिंदुओं और डेटा का एक डेटाबेस होता है जिसे टोकन किया गया है। दस्तावेज़ तब एक अलग कैश में रहेगा।

जबकि हम ठीक से उन प्रक्रियाओं के बारे में नहीं जानते हैं जो Google जैसे खोज इंजन अपनी सूचना पुनर्प्राप्ति प्रणाली के हिस्से के रूप में करेंगे, उनके चरणों की संभावना होगी:

  • संरचनात्मक विश्लेषण – पाठ प्रारूप और संरचना, सूचियाँ, तालिकाएँ, चित्र, आदि।
  • स्टेमिंग – किसी शब्द की विविधता को उसकी जड़ तक कम करना। उदाहरण के लिए, “खोज” और “खोज” को “खोज” कर दिया जाएगा।
  • शाब्दिक विश्लेषण – दस्तावेज़ को शब्दों की सूची में बदलना और फिर तारीखों, लेखकों और शब्द आवृत्ति जैसे महत्वपूर्ण कारकों की पहचान करने के लिए पार्स करना। ध्यान दें, यह TF*IDF के समान नहीं है।

हम इस चरण के दौरान अन्य विचारों और डेटा बिंदुओं को भी ध्यान में रखते हैं, जैसे कि बैकलिंक्स, स्रोत प्रकार, दस्तावेज़ गुणवत्ता सीमा को पूरा करता है या नहीं, आंतरिक लिंकिंग, मुख्य सामग्री / सहायक सामग्री, आदि।

शुद्धता और पोस्ट-रिट्रीवल

2016 में, पॉल हाहर ने इस बात की बहुत जानकारी दी कि Google अपनी प्रक्रिया की “सफलता” को कैसे मापता है और यह भी कि यह पुनर्प्राप्ति के बाद के समायोजन को कैसे लागू करता है।

आप उनकी प्रस्तुति देख सकते हैं यहां.

अधिकांश सूचना पुनर्प्राप्ति प्रणालियों में, एक अच्छे परिणाम सेट को वापस करने में सिस्टम कितना सफल है, इसके दो प्राथमिक उपाय हैं।

ये सटीक और स्मरण हैं।

शुद्धता

लौटाए गए दस्तावेज़ों की संख्या जो प्रासंगिक हैं बनाम लौटाए गए दस्तावेज़ों की कुल संख्या।

कई वेबसाइटों ने हाल के महीनों में रैंक किए गए कीवर्ड की कुल संख्या में गिरावट देखी है (जैसे अजीब, किनारे वाले कीवर्ड जिनके लिए रैंकिंग में उनका कोई अधिकार नहीं था)। हम अनुमान लगा सकते हैं कि खोज इंजन अधिक सटीकता के लिए सूचना पुनर्प्राप्ति प्रणाली को परिष्कृत कर रहे हैं।

याद करना

प्रासंगिक दस्तावेज़ों की संख्या बनाम लौटाए गए प्रासंगिक दस्तावेज़ों की कुल संख्या।

खोज इंजन रिकॉल की तुलना में सटीकता की ओर अधिक ध्यान देते हैं, क्योंकि सटीकता बेहतर खोज परिणाम पृष्ठों और अधिक उपयोगकर्ता संतुष्टि की ओर ले जाती है। यह अधिक दस्तावेज़ों को वापस करने और आवश्यकता से अधिक डेटा को संसाधित करने में भी कम सिस्टम-गहन है।

निष्कर्ष

उपयोग किए गए विभिन्न सूत्रों और तंत्रों के कारण सूचना पुनर्प्राप्ति का अभ्यास जटिल हो सकता है।

उदाहरण के लिए:

जैसा कि हम पूरी तरह से नहीं जानते या समझते हैं कि यह प्रक्रिया खोज इंजन में कैसे काम करती है, हमें टीएफ * आईडीएफ जैसे गेम मेट्रिक्स की कोशिश करने की तुलना में प्रदान की गई मूलभूत और दिशानिर्देशों पर अधिक ध्यान केंद्रित करना चाहिए (और वे कैसे वजन करते हैं, इसमें भिन्नता है) समग्र परिणाम में)।

और अधिक संसाधनों:


विशेष रुप से प्रदर्शित छवि: BRO.vector/Shutterstock

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button
Ads Blocker Image Powered by Code Help Pro

Ads Blocker Detected!!!

We have detected that you are using extensions to block ads. Please support us by disabling these ads blocker.

Powered By
Best Wordpress Adblock Detecting Plugin | CHP Adblock