Search Engine क्या है और कैसे काम करता है

क्या आपको मालूम है की सर्च इंजन क्या है और कैसे काम करता है, आज हम इसी विषय के बारे में बात करने वाले है. सर्च इंजन के माधयम से हम इंटरनेट पर जानकारी प्राप्त करते है. ये सर्च इंजन हमारे लिए इनफार्मेशन को खोजने में मदद करते है क्योकि हम इंटरनेट पर इनफार्मेशन सर्च इंजन के द्वारा ही प्राप्त करते है. सर्च इंजन एक टीचर की तरह हमारे सभी सवालो का जवाब देता है.

इंटरनेट पर लाखो करोडो वेबसाइट उपलब्ध है जो कुछ ना कुछ इनफार्मेशन प्रदान करती है. सोचिये अगर सर्च इंजन ना होता तो ये इनफार्मेशन आप तक कौन पहुंचाता, आप कैसे इंटरनेट पर इनफार्मेशन को खोजते, किसी वेबसाइट की जानकारी आपको कैसे मिलती, इन्ही सभी जवाबो के लिए सर्च इंजन का अविष्कार किया गया है. सर्च इंजन क्या है और कैसे काम करता है ये जानना बहुत ही आवश्यक है तो जानते है की सर्च इंजन क्या है और कैसे काम करता है.

search engine kya hai aur kaise kam karta hai

सर्च इंजन क्या है

Search Engine एक Web Tools अथवा Program है जो अपने इन्टरनेट यूजर को World Wide Web पर Information को Search करने में सहायता करता है. जब कोई उपयोगकर्ता Search Engine अथवा Search Bar में Information को खोजता है तो उसे कीवर्ड कहा जाता है और इन्ही कीवर्ड और Key Phrase के आधार पर Search Engine उपयोगकर्ता के लिए वेब रिजल्ट की एक सूची प्रदान करता है.

Search Engine वेबसाइट के इमेज , वीडियो और लिंक के रूप हमे जो Search रिजल्ट की सूची ( Content List ) दिखाते है उन्हें Search Engine Page Results ( SEPRs ) कहा जाता है.

सर्च इंजन एक ऑनलाइन टूल है जो इंटरनेट उपयोगकर्ता द्वारा खोज जानकारी के आधार पर अपने डेटाबेस में परिमाणों की खोज करता है.

सर्च इंजन अपने डेटाबेस में उन रिजल्ट को अपने सर्च Algorithms के आधार पर सर्च रिजल्ट के रूप में प्रस्तुत करता है.

Search engine एक Web Based Tools है जो इंटरनेट के असीमित डेटाबेस में स्टोर जानकारी को यूजर के सवालो को खोजता है ( जिसे कीवर्ड कहा जाता है ) , और उससे सम्बन्धित जो जानकारी मिलती है उसे सर्च रिजल्ट पेज के रूप में दिखाता है.

सर्च इंजन अपने यूजर को एकदम सही और सटीक जानकारी प्रदान करना उसकी पहली प्राथमिकता होती है.

सर्च इंजन में जो भी सर्च किया जाता है उसको ढूढ कर सर्च इंजन सटीक रिजल्ट दिखाने का काम करता है.

Search Engine Algorithms क्या है

Search Engine Algorithms एक यूनिक फार्मूला है जिसके द्वारा सर्च रिजल्ट पेज को एक क्रमबध्द के रूप दिखाता है. Search Engine algorithms का उपयोग करता है जिससे इनफार्मेशन को पुनर्प्राप्त और मीनिंगफुल तरीके से एक क्रम में सयोजित करता है.

इन Algorithms ने सर्च रिजल्ट्स की गुणवत्ता में सुधार करने के लिए कई बार बदलाव किये गए है.

Search Algorithms कई Factors को देखते है जिनमे आपके द्वारा की गयी क्वेरी के शब्द , पेज की उपयोगिता , स्रोतों की विशेषज्ञता के आधार पर अपने सर्च रिजल्ट में शामिल करता है.

Search Engine Algorithms का उद्देश्य क्या है

सर्च इंजन Algorithms का मुख्य उद्देश्य है की उच्च गुणवत्ता वाले सर्च रिजल्ट का एक मिलता जुलता सेट पेश करना है जो यूजर के सर्च क्वेरी अथवा क्वेश्चन को पूरा कर सके. यूजर तब सर्च रिजल्ट की सूची में से किसी एक विकल्प को चुन सकता है/ चुनता है.

सर्च इंजन सदैव अपने यूजर को बेस्ट इनफार्मेशन उपलब्ध कराता है जो उसके क्वेरी के ज्यादा relevant हो. अधिक गुणवत्ता वाले कंटेन्ट को टॉप पर प्रदर्शित करता है.

सर्च Algorithms कैसे कार्य करता है

Google Relevant Content को खोजने और रैंक करने के लिए गूगल कई कारको को देखता है लेकिन किसी को नहीं पता की ये सब क्या है. जब आप किसी चीज को गूगल में सर्च करते है, तो यह Exact क्वेरी से मिलान के रिजल्ट को खोजता है और Algorithms उन्हें सेकंड के एक अंश में Relevance रिजल्ट को रैंक करता है.

जब सर्च इंजन में कोई खोज की जाती है - When a Search is Performed

जब किसी यूजर द्वारा सर्च इंजन में कोई सर्च क्वेरी को Enter किया जाता है तो उस सर्च क्वेरी से सम्बंधित सूचनाओं को एक सूची क्रमबंध तरीके से सर्च रिजल्ट के रूप में प्रस्तुत किया जाता है ( जो वेब पेज इंडेक्स होते है ). सर्च algorithms सबसे अधिक प्रासंगिक रिजल्ट वाले वेब पेज को पहले रैंक के रूप में दिखता है.

किसी भी वेब पेज की रैंकिंग भिन्न भिन्न सर्च इंजन में अलग अलग होती है मान लो google में एक सर्च क्वेरी के लिए हाई रैंक करने वाला पेज bing में समान क्वेरी के लिए हाई रैंक नहीं कर सकता है.

सर्च इंजन कैसे कार्य करता है

1. Search Engine Crawler

सर्च इंजन Crawler एक कंप्यूटर प्रोग्राम है जो वेब पर दस्तावेजों को स्वचालित रूप से खोजता है, Crawler, Bot या Spider कहा जाता है और इस प्रोसेस को Crawlling कहा जाता है. Crawlling Process में नयी और पुरानी वेबसाइट को स्कैन किया जाता है और वेबसाइट के हर एक वेब पेज की Details एकत्र की जाती है.

Crawler, Bot अथवा Spider ये वर्ल्ड वाइड वेब पर सभी वेबसाइटो पर घूम घूम कर सूचनाओं को संग्रह करते है. ये Crawler इंटरनेट पर लगातार घूमता रहता है. Crawler इंटरनेट पर एक सेकेंड में लाखो वेबसाइट के पेजो को स्कैन करता है और उनसे जुड़ी जानकारी को एकत्रित करता है जैसे -

वेब पेज का Title और Description क्या है.
उस वेब पेज में कौन कौन से कीवर्ड यूज़ किये गए है.
उस वेब पेज में इमेज और वीडियो है की नहीं.
उस वेबसाइट में कुल कितने पेज है.
उसमे कौन कौन से लिंक है.
उस वेब पेज को कब अपडेट किया गया है.
और कौन सा वेब पेज डिलीट किया गया है.

Crawlling एक खोज प्रक्रिया है जिसमे सर्च इंजन नई और संशोधित सूचनाओं को खोजने के लिए रोबोट ( Crawler अथवा Spider ) की एक टीम भेजते है. गूगल के वेब Crawler को GoogleBot कहा जाता है.

2. Search Engine Index

जब Crawler किसी वेबसाइट को Scan कर लेते है तो उसके बाद Indexing प्रोसेस शुरू होती है. इस प्रोसेस में वेब पेज के Crawl किये गए Data को डेटाबेस में स्टोर किया जाता है जिसे डेटाबेस सेन्टर कहा जाता है और वेब पेज के इनफार्मेशन को Storage को index कहा जाता है.

Search Engine द्वारा सर्च किये गए वेबपेज को अपने डेटाबेस में सुरक्षित रखने को इंडेक्स कहा जाता है. इंडेक्स में सभी खोजे गए यूआरएल ( URL ) के साथ साथ प्रत्येक यूआरएल के Content के बारे में महत्वपूर्ण Keys संकेत शामिल होते है -

पेज कन्टेन्ट के भीतर खोजे गए कीवर्ड - पेज किन किन विषयों को कवर करता है.
जिस प्रकार की Content को Crawl किया जा रहा है ( Using Schema ) - पेज पर क्या शामिल है.
पेज की Fressness - की उसे कैसे अपडेट किया गया.
उस पेज के साथ यूजर की सहभागिता और जुड़ाव कैसा था.

Crawl किये गए सभी जानकारियों को एक सही क्रम में व्यवस्थित करके सर्च इंजन के मुख्य डेटाबेस में स्टोर किया जाता है ताकि सूचनाओं को सर्च किये जाने पर जल्दी से प्रोसेस करके यूजर को दिखाया जा सके.

सर्च इंजन के उदाहरण

Google
Microsoft Bing
Baidu
Yahoo
DuckDuckGo
Yandex

क्या कारण होता है कि सर्च इंजन के क्रॉलर वेबपेज को Index नहीं करते है ?

एक वेब पेज को सर्च इंजन कई कारणों से इंडेक्स नहीं करता है -

Robots.txt File Exclusion - एक फाइल जो सर्च इंजन को बताती है की उन्हें आपकी साइट पर क्या नहीं आना चाहिए.
Directory on the WebPage - यह सर्च इंजन को वेब पेज इंडेक्स ना ( Noindex tag ) करने को बताती है और उसके अन्य Similar पेज ( Cononical tag ) को इंडेक्स किया जाये.
Search Engine algorithms - उस वेब पेज को निम्न गुणवत्ता होने की संकेत देता है, इसमें पतली कंटेंट ( Thin Content ) या डुप्लीकेट कंटेंट होती है.
पेज यूआरएल Error - 404 Not Found HTTP response code.

Discovered - Currently not Index

गूगल सर्च कन्सोल में , अपनी साइट की कवरेज स्थिति रिपोर्ट की जाँच करते समय गूगल ने आपके कुछ यूआरएल खोजे ( discovered ) है जो वर्तमान समय में इंडेक्स नहीं है. इस स्थिति का अर्थ है की गूगल ने यूआरएल को crowl किया है लेकिन वो यूआरएल इंडेक्स नहीं है और ना ही उन्हें सर्च रिजल्ट में प्रदर्शित किया जायेगा.

अधिकांश छोटी वेबसाइट या ब्लॉग के लिए, यह स्थिति सामान्य एवम स्वाभाविक है. गूगल में यूआरएल के Crowl होने के बाद यह समस्या अपने आप हल हो जायेगी. उदाहरण के लिए गूगल में यह वह जगह है जहा यूआरएल इंडेक्स होने की प्रक्रिया में होता है.

Discovered Currently not Index निम्न कारणों से होता है -

ओवरलोड सर्वर होने के कारण
Content ओवरलोड होने के कारण
आतंरिक लिंक सरंचना ख़राब होने के कारण

Robots.txt

Robots.txt फाइल को वेबसाइट के मूल डायरेक्टरी में स्थित होता है. Robots.txt फाइल एक निर्देशों की फाइल है जो आपकी साइट के किन हिस्सों को Crawl करना है या नहीं करना है , ये निर्देशित करता है.Googlebot Robots.txt फाइल को रीड करता है जिससे उसे ये मालूम हो जाता है की क्या allow करना और क्या disallow करना है. Robots.txt फाइल के अंदर sitemap की जानकारी होती है. किसी वेबसाइट के एड्रेस के पीछे /robots.txt लिखकर सर्च करने पर उसका sitemap लोकेशन दिखाई पड़ता है.

3. Search Engine Ranking

जब कोई सर्च इंजन में सर्च करता है , तो सर्च इंजन अधिक सूचनाओं वाले वेब पेज को अपने इंडेक्स से मैच करता है और फिर खोजकर्ता की क्वेरी को हल करने की उम्मीद में उस सुचना को क्रम में व्यवस्थित करता है. सर्च रिजल्ट के क्रम को सर्च रैंकिंग के रूप में जाना जाता है.

सर्च इंजन रैंकिंग के कुछ फैक्टर होते है जिनके आधार पर रैंकिंग प्रदान करता है. ये सभी फैक्टर कन्टेंट की गुणवत्ता , informative और valuable इनफार्मेशन के आधार पर चुनते है. सर्च इंजन रैंकिंग algorithms बहुत फैक्टर को देखते है जैसे क्वेरी के शब्द , पेज की उपयोगिता , लोकेशन और सेटिंग आदि.

सर्च इंजन की विशेषताए

1. High Quality Result प्रदान करना

Google Search Engine की प्रमुख विशेषता ये है की अपने यूजर को Best Quality Result प्रदान करना ताकि यूजर का trust बना रहे. सर्च इंजन सदैव अच्छे Content को वरीयता प्रदान करता है चाहे वह किसी भी भाषा में हो. सर्च इंजन उच्च गुणवत्ता वाले content को अपने यूजर तक पहुंचाता है और उस उच्च गुणवत्ता वाले Content को अपने डेटाबेस में स्टोर कर लेता है. शायद यही कारण है की गूगल सर्च इंजन पॉपुलर है क्योकि वह अपने यूजर के लिए अच्छी गुणवत्ता वाला रिजल्ट प्रदान करता है.

2. यूजर के विश्वसनीयता को बनाये रखना

गूगल सर्च इंजन अपने यूजर को सदैव उच्च गुणवत्ता वाली सामग्री प्रदान करने के वजह यूजर की विश्वसनीयता गूगल के प्रति ज्यादा है. गूगल सर्च इंजन अपने यूजर को उच्च गुणवत्ता प्रदान करने के लिए कई प्रकार के तकनीकी का प्रयोग करते है, जिससे उन्हें उच्च गुणवत्ता वाली सामग्री मिल सके और लोगो का उनके प्रति अधिक विश्वास हो. गूगल सर्च इंजन सदैव उच्च गुणवत्ता वाली सामग्री अपने यूजर को परोसता है जिससे उनका विशवास उनके प्रति बना रहे.

3. सरलता से उपयोग करना

गूगल सर्च इंजन को बड़ी सरलता के साथ उपयोग किया जा सकता है. ये हमेशा अपने यूजर को गाइड करते रहते है और हर समस्या का निदान अपने गाइड लाइन में देते है की उसे कैसे यूज़ करना है. सर्च इंजन का गाइडेंस और उससे जुडी सभी समस्याओं का निदान प्रदान करते है ताकि उनके यूजर को किसी प्रकार की समस्या ना हो.

Conclusion

आज के लेख में सर्च इंजन क्या है और कैसे काम करता है, से जुडी सभी जरुरी जानकारी प्रदान की गयी है और मुझे उम्मीद है आप लोगो समझ गए होंगे की सर्च इंजन कैसे काम करता है अगर आप लोगो को मेरा यह लेख पसंद आया हो तो कमेंट करे और शेयर जरूर करे ताकि ये जानकारी अन्य लोगो तक पहुंच सके.