Technology

Google On Percentage That Represents Duplicate Content

Google के जॉन म्यूएलर ने हाल ही में एक प्रश्न का उत्तर दिया कि क्या सामग्री दोहराव की प्रतिशत सीमा है जिसका उपयोग Google डुप्लिकेट सामग्री को पहचानने और फ़िल्टर करने के लिए करता है।

डुप्लिकेट सामग्री के बराबर कितना प्रतिशत है?

बातचीत वास्तव में फेसबुक पर तब शुरू हुई जब डुआने फॉरेस्टर (@DuaneForrester) ने पूछा कि क्या किसी को पता है कि क्या किसी खोज इंजन ने सामग्री ओवरलैप का प्रतिशत प्रकाशित किया है जिस पर सामग्री को डुप्लिकेट माना जाता है।

बिल हार्टज़र (भरत्ज़ेर) ने जॉन म्यूएलर से पूछने के लिए ट्विटर का रुख किया और तत्काल प्रतिक्रिया प्राप्त की।

बिल ने ट्वीट किया:

“अरे @johnmu क्या कोई प्रतिशत है जो डुप्लिकेट सामग्री का प्रतिनिधित्व करता है?

उदाहरण के लिए, क्या हमें यह सुनिश्चित करने का प्रयास करना चाहिए कि हमारी साइट के अन्य पृष्ठों की तुलना में पृष्ठ कम से कम 72.6 प्रतिशत अद्वितीय हैं?

क्या Google इसे मापता भी है?”

Google के जॉन मुलर ने जवाब दिया:

Google डुप्लीकेट सामग्री का पता कैसे लगाता है?

डुप्लिकेट सामग्री का पता लगाने के लिए Google की कार्यप्रणाली उल्लेखनीय रूप से कई वर्षों से समान है।

2013 में वापस, मैट कट्स (@mattcutts), उस समय Google में एक सॉफ़्टवेयर इंजीनियर एक आधिकारिक Google वीडियो प्रकाशित किया यह वर्णन करना कि Google कैसे डुप्लिकेट सामग्री का पता लगाता है।

उन्होंने यह कहते हुए वीडियो की शुरुआत की कि इंटरनेट सामग्री का एक बड़ा हिस्सा डुप्लिकेट है और यह एक सामान्य बात है।

“यह जानना महत्वपूर्ण है कि यदि आप वेब पर सामग्री को देखते हैं, तो वेब की सभी सामग्री का 25% या 30% डुप्लिकेट सामग्री है।

…लोग एक ब्लॉग के एक पैराग्राफ को उद्धृत करेंगे और फिर उस तरह के ब्लॉग से लिंक करेंगे।”

उन्होंने आगे कहा कि क्योंकि इतनी अधिक डुप्लिकेट सामग्री निर्दोष है और बिना स्पैम के इरादे से है कि Google उस सामग्री को दंडित नहीं करेगा।

उन्होंने कहा कि कुछ डुप्लीकेट सामग्री रखने के लिए वेबपेजों को दंडित करने से खोज परिणामों की गुणवत्ता पर नकारात्मक प्रभाव पड़ेगा।

डुप्लिकेट सामग्री मिलने पर Google क्या करता है:

“… सभी को एक साथ समूहबद्ध करने का प्रयास करें और इसे ऐसे समझें जैसे कि यह सामग्री का केवल एक टुकड़ा है।”

मैट जारी रखा:

“इसे सिर्फ कुछ ऐसा माना जाता है जिसे हमें उचित रूप से क्लस्टर करने की आवश्यकता होती है। और हमें यह सुनिश्चित करने की आवश्यकता है कि यह सही ढंग से रैंक करे।”

उन्होंने समझाया कि Google तब चुनता है कि खोज परिणामों में कौन सा पृष्ठ दिखाना है और यह उपयोगकर्ता अनुभव को बेहतर बनाने के लिए डुप्लिकेट पृष्ठों को फ़िल्टर करता है।

Google डुप्लिकेट सामग्री को कैसे संभालता है – 2020 संस्करण

2020 तक फास्ट फॉरवर्ड और Google ने एक सर्च ऑफ द रिकॉर्ड पॉडकास्ट एपिसोड प्रकाशित किया जहां एक ही विषय को उल्लेखनीय रूप से समान भाषा में वर्णित किया गया है।

यह रहा उस पॉडकास्ट का प्रासंगिक खंड एपिसोड में 06:44 मिनट से:

“गैरी इलियस: और अब हम अगले चरण के साथ समाप्त हुए, जो वास्तव में विहितकरण और नकली पहचान है।

मार्टिन स्प्लिट: क्या यह वही नहीं है, डुप्ली डिटेक्शन और कैननिकलाइजेशन, तरह का?

गैरी इलियस: [00:06:56] अच्छा, यह नहीं है, है ना? क्योंकि पहले आपको ठगों का पता लगाना होगा, मूल रूप से उन्हें एक साथ क्लस्टर करना होगा, यह कहते हुए कि ये सभी पृष्ठ एक दूसरे के नकली हैं,
और फिर आपको मूल रूप से उन सभी के लिए एक लीडर पेज ढूंढना होगा।

… और वह विहितीकरण है।

तो, आपके पास दोहराव है, जो कि संपूर्ण शब्द है, लेकिन इसके भीतर आपके पास क्लस्टर बिल्डिंग है, जैसे डुप्ली क्लस्टर बिल्डिंग, और कैनोनिकलाइजेशन। “

गैरी आगे तकनीकी शब्दों में बताते हैं कि वे वास्तव में ऐसा कैसे करते हैं। मूल रूप से, Google वास्तव में प्रतिशत को बिल्कुल नहीं देख रहा है, बल्कि चेकसम की तुलना कर रहा है।

एक चेकसम को संख्याओं या अक्षरों की एक श्रृंखला के रूप में सामग्री का प्रतिनिधित्व कहा जा सकता है। तो अगर सामग्री डुप्लिकेट है तो चेकसम संख्या अनुक्रम समान होगा।

इस तरह गैरी ने इसे समझाया:

“तो, हम नकली का पता लगाने के लिए क्या करते हैं, ठीक है, हम डुप्ली का पता लगाने की कोशिश करते हैं।

और हम यह कैसे करते हैं कि शायद अन्य खोज इंजनों के अधिकांश लोग इसे कैसे करते हैं, जो मूल रूप से सामग्री को हैश या चेकसम में कम करता है और फिर चेकसम की तुलना करता है।

गैरी ने कहा कि Google ऐसा इसलिए करता है क्योंकि यह आसान है (और स्पष्ट रूप से सटीक)।

Google चेकसम के साथ डुप्लिकेट सामग्री का पता लगाता है

इसलिए जब डुप्लिकेट सामग्री के बारे में बात की जाती है तो यह शायद प्रतिशत की सीमा की बात नहीं है, जहां एक संख्या है जिस पर सामग्री को डुप्लिकेट कहा जाता है।

बल्कि, चेकसम के रूप में सामग्री के प्रतिनिधित्व के साथ डुप्लिकेट सामग्री का पता लगाया जाता है और फिर उन चेकसम की तुलना की जाती है।

एक अतिरिक्त उपाय यह है कि जब सामग्री का हिस्सा डुप्लिकेट होता है और सभी सामग्री डुप्लिकेट होती है, तो इसमें अंतर प्रतीत होता है।


शटरस्टॉक / एज़ूम इमेज द्वारा विशेष रुप से प्रदर्शित छवि

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button
Ads Blocker Image Powered by Code Help Pro

Ads Blocker Detected!!!

We have detected that you are using extensions to block ads. Please support us by disabling these ads blocker.