Google On Percentage That Represents Duplicate Content

Google के जॉन म्यूएलर ने हाल ही में एक प्रश्न का उत्तर दिया कि क्या सामग्री दोहराव की प्रतिशत सीमा है जिसका उपयोग Google डुप्लिकेट सामग्री को पहचानने और फ़िल्टर करने के लिए करता है।

डुप्लिकेट सामग्री के बराबर कितना प्रतिशत है?

बातचीत वास्तव में फेसबुक पर तब शुरू हुई जब डुआने फॉरेस्टर (@DuaneForrester) ने पूछा कि क्या किसी को पता है कि क्या किसी खोज इंजन ने सामग्री ओवरलैप का प्रतिशत प्रकाशित किया है जिस पर सामग्री को डुप्लिकेट माना जाता है।

बिल हार्टज़र (भरत्ज़ेर) ने जॉन म्यूएलर से पूछने के लिए ट्विटर का रुख किया और तत्काल प्रतिक्रिया प्राप्त की।

बिल ने ट्वीट किया:

“अरे @johnmu क्या कोई प्रतिशत है जो डुप्लिकेट सामग्री का प्रतिनिधित्व करता है?

उदाहरण के लिए, क्या हमें यह सुनिश्चित करने का प्रयास करना चाहिए कि हमारी साइट के अन्य पृष्ठों की तुलना में पृष्ठ कम से कम 72.6 प्रतिशत अद्वितीय हैं?

क्या Google इसे मापता भी है?”

Google के जॉन मुलर ने जवाब दिया:

Google डुप्लीकेट सामग्री का पता कैसे लगाता है?

डुप्लिकेट सामग्री का पता लगाने के लिए Google की कार्यप्रणाली उल्लेखनीय रूप से कई वर्षों से समान है।

2013 में वापस, मैट कट्स (@mattcutts), उस समय Google में एक सॉफ़्टवेयर इंजीनियर एक आधिकारिक Google वीडियो प्रकाशित किया यह वर्णन करना कि Google कैसे डुप्लिकेट सामग्री का पता लगाता है।

उन्होंने यह कहते हुए वीडियो की शुरुआत की कि इंटरनेट सामग्री का एक बड़ा हिस्सा डुप्लिकेट है और यह एक सामान्य बात है।

“यह जानना महत्वपूर्ण है कि यदि आप वेब पर सामग्री को देखते हैं, तो वेब की सभी सामग्री का 25% या 30% डुप्लिकेट सामग्री है।

…लोग एक ब्लॉग के एक पैराग्राफ को उद्धृत करेंगे और फिर उस तरह के ब्लॉग से लिंक करेंगे।”

उन्होंने आगे कहा कि क्योंकि इतनी अधिक डुप्लिकेट सामग्री निर्दोष है और बिना स्पैम के इरादे से है कि Google उस सामग्री को दंडित नहीं करेगा।

उन्होंने कहा कि कुछ डुप्लीकेट सामग्री रखने के लिए वेबपेजों को दंडित करने से खोज परिणामों की गुणवत्ता पर नकारात्मक प्रभाव पड़ेगा।

डुप्लिकेट सामग्री मिलने पर Google क्या करता है:

“… सभी को एक साथ समूहबद्ध करने का प्रयास करें और इसे ऐसे समझें जैसे कि यह सामग्री का केवल एक टुकड़ा है।”

मैट जारी रखा:

“इसे सिर्फ कुछ ऐसा माना जाता है जिसे हमें उचित रूप से क्लस्टर करने की आवश्यकता होती है। और हमें यह सुनिश्चित करने की आवश्यकता है कि यह सही ढंग से रैंक करे।”

उन्होंने समझाया कि Google तब चुनता है कि खोज परिणामों में कौन सा पृष्ठ दिखाना है और यह उपयोगकर्ता अनुभव को बेहतर बनाने के लिए डुप्लिकेट पृष्ठों को फ़िल्टर करता है।

Google डुप्लिकेट सामग्री को कैसे संभालता है – 2020 संस्करण

2020 तक फास्ट फॉरवर्ड और Google ने एक सर्च ऑफ द रिकॉर्ड पॉडकास्ट एपिसोड प्रकाशित किया जहां एक ही विषय को उल्लेखनीय रूप से समान भाषा में वर्णित किया गया है।

यह रहा उस पॉडकास्ट का प्रासंगिक खंड एपिसोड में 06:44 मिनट से:

“गैरी इलियस: और अब हम अगले चरण के साथ समाप्त हुए, जो वास्तव में विहितकरण और नकली पहचान है।

मार्टिन स्प्लिट: क्या यह वही नहीं है, डुप्ली डिटेक्शन और कैननिकलाइजेशन, तरह का?

गैरी इलियस: [00:06:56] अच्छा, यह नहीं है, है ना? क्योंकि पहले आपको ठगों का पता लगाना होगा, मूल रूप से उन्हें एक साथ क्लस्टर करना होगा, यह कहते हुए कि ये सभी पृष्ठ एक दूसरे के नकली हैं,
और फिर आपको मूल रूप से उन सभी के लिए एक लीडर पेज ढूंढना होगा।

… और वह विहितीकरण है।

तो, आपके पास दोहराव है, जो कि संपूर्ण शब्द है, लेकिन इसके भीतर आपके पास क्लस्टर बिल्डिंग है, जैसे डुप्ली क्लस्टर बिल्डिंग, और कैनोनिकलाइजेशन। “

गैरी आगे तकनीकी शब्दों में बताते हैं कि वे वास्तव में ऐसा कैसे करते हैं। मूल रूप से, Google वास्तव में प्रतिशत को बिल्कुल नहीं देख रहा है, बल्कि चेकसम की तुलना कर रहा है।

एक चेकसम को संख्याओं या अक्षरों की एक श्रृंखला के रूप में सामग्री का प्रतिनिधित्व कहा जा सकता है। तो अगर सामग्री डुप्लिकेट है तो चेकसम संख्या अनुक्रम समान होगा।

इस तरह गैरी ने इसे समझाया:

“तो, हम नकली का पता लगाने के लिए क्या करते हैं, ठीक है, हम डुप्ली का पता लगाने की कोशिश करते हैं।

और हम यह कैसे करते हैं कि शायद अन्य खोज इंजनों के अधिकांश लोग इसे कैसे करते हैं, जो मूल रूप से सामग्री को हैश या चेकसम में कम करता है और फिर चेकसम की तुलना करता है।

गैरी ने कहा कि Google ऐसा इसलिए करता है क्योंकि यह आसान है (और स्पष्ट रूप से सटीक)।

Google चेकसम के साथ डुप्लिकेट सामग्री का पता लगाता है

इसलिए जब डुप्लिकेट सामग्री के बारे में बात की जाती है तो यह शायद प्रतिशत की सीमा की बात नहीं है, जहां एक संख्या है जिस पर सामग्री को डुप्लिकेट कहा जाता है।

बल्कि, चेकसम के रूप में सामग्री के प्रतिनिधित्व के साथ डुप्लिकेट सामग्री का पता लगाया जाता है और फिर उन चेकसम की तुलना की जाती है।

एक अतिरिक्त उपाय यह है कि जब सामग्री का हिस्सा डुप्लिकेट होता है और सभी सामग्री डुप्लिकेट होती है, तो इसमें अंतर प्रतीत होता है।


शटरस्टॉक / एज़ूम इमेज द्वारा विशेष रुप से प्रदर्शित छवि

Leave a Comment