घर » पल्मोनोलॉजी » सूचना पुनर्प्राप्ति प्रौद्योगिकी। सूचना पुनर्प्राप्ति

सूचना पुनर्प्राप्ति प्रौद्योगिकी। सूचना पुनर्प्राप्ति

रूसी भाषी उपयोगकर्ताओं में, सबसे लोकप्रिय खोज इंजन Google, Yandex और Rambler हैं।

एक प्रक्रिया के रूप में सूचना पुनर्प्राप्ति

सूचना खोज दस्तावेजों (ग्रंथों) के एक निश्चित सेट में उन सभी की पहचान करने की प्रक्रिया है जो एक निर्दिष्ट विषय (विषय) के लिए समर्पित हैं, एक पूर्व निर्धारित खोज स्थिति (अनुरोध) को पूरा करते हैं या आवश्यक (सूचना आवश्यकताओं के अनुरूप) तथ्य, जानकारी शामिल करते हैं , आंकड़े।

खोज प्रक्रिया में जानकारी एकत्र करने, संसाधित करने और प्रदान करने के उद्देश्य से संचालन का एक क्रम शामिल है।

सामान्य तौर पर, सूचना की खोज में चार चरण होते हैं:

सूचना आवश्यकताओं का निर्धारण (स्पष्टीकरण) और सूचना अनुरोध का निरूपण;
सूचना सरणियों (स्रोतों) के संभावित धारकों की समग्रता का निर्धारण;
पहचान की गई सूचना सरणियों से जानकारी निकालना;
प्राप्त जानकारी और खोज परिणामों के मूल्यांकन से परिचित होना।

खोज प्रकार

खोज के तरीके

पता खोज

अनुरोध में निर्दिष्ट विशुद्ध रूप से औपचारिक आधार पर दस्तावेजों की खोज की प्रक्रिया।
कार्यान्वयन के लिए निम्नलिखित शर्तें आवश्यक हैं:

क्या दस्तावेज़ का कोई सटीक पता है?
स्टोरेज डिवाइस या सिस्टम स्टोरेज में दस्तावेजों की सख्त व्यवस्था सुनिश्चित करना।

दस्तावेजों के पते वेब सर्वर और वेब पेजों के पते और एक ग्रंथ सूची के तत्व हो सकते हैं, और भंडार में दस्तावेजों को संग्रहीत करने के पते हो सकते हैं।

सिमेंटिक सर्च

उनकी सामग्री द्वारा दस्तावेजों की खोज की प्रक्रिया।

दस्तावेजों और प्रश्नों की सामग्री का प्राकृतिक भाषा से सूचना पुनर्प्राप्ति भाषा में अनुवाद और दस्तावेज़ और क्वेरी की खोज छवियों का संकलन।
एक खोज विवरण संकलित करना जो एक अतिरिक्त खोज शर्त निर्दिष्ट करता है।

पते और शब्दार्थ खोजों के बीच मूलभूत अंतर यह है कि पता खोज में दस्तावेज़ को रूप के संदर्भ में एक वस्तु के रूप में माना जाता है, और शब्दार्थ खोज में - सामग्री के संदर्भ में।

सिमेंटिक सर्च में बिना पतों को निर्दिष्ट किए ढेर सारे दस्तावेज मिल जाते हैं।

यह कैटलॉग और फ़ाइल कैबिनेट के बीच मूलभूत अंतर है।

सूचना खोज सूचना सरणी में रिकॉर्ड की पहचान करने की प्रक्रिया है जो एक पूर्व निर्धारित खोज स्थिति या क्वेरी को संतुष्ट करती है।

आईपी दस्तावेजों में जानकारी की खोज करने, स्वयं दस्तावेजों की खोज करने, दस्तावेजों से मेटाडेटा निकालने, स्थानीय संबंधपरक डेटाबेस में टेक्स्ट, छवियों, वीडियो और ध्वनि की खोज करने, हाइपरटेक्स्ट डेटाबेस जैसे इंटरनेट और स्थानीय इंट्रानेट सिस्टम में विचार करता है।

डेटा पुनर्प्राप्ति, दस्तावेज़ पुनर्प्राप्ति, सूचना पुनर्प्राप्ति और पाठ पुनर्प्राप्ति की अवधारणाओं के बारे में कुछ भ्रम है। हालाँकि, अनुसंधान के इन क्षेत्रों में से प्रत्येक की अपनी कार्यप्रणाली, अभ्यास और साहित्य है।

वर्तमान में, आईपी विज्ञान का एक तेजी से विकासशील क्षेत्र है, जिसकी लोकप्रियता विशेष रूप से इंटरनेट पर सूचना की मात्रा में घातीय वृद्धि के कारण है। आईपी को समर्पित एक विशाल साहित्य और कई सम्मेलन हैं। सबसे प्रसिद्ध में से एक TREC है, जिसे 1992 में अमेरिकी रक्षा विभाग द्वारा इंस्टीट्यूट ऑफ स्टैंडर्ड्स एंड टेक्नोलॉजी (NIST) के साथ मिलकर अनुसंधान समुदाय को मजबूत करने और IP की गुणवत्ता का आकलन करने के तरीकों को विकसित करने के उद्देश्य से आयोजित किया गया था।

अनुरोध और अनुरोध वस्तु

आईपी सिस्टम के बारे में बोलते हुए, वे शर्तों का उपयोग करते हैं जांचऔर अनुरोध वस्तु.

जांचसिस्टम के उपयोगकर्ता की सूचना आवश्यकताओं को व्यक्त करने का एक औपचारिक तरीका है। खोज क्वेरी भाषा का उपयोग सूचना की आवश्यकता को व्यक्त करने के लिए किया जाता है, सिंटैक्स सिस्टम से सिस्टम में भिन्न होता है। एक विशेष क्वेरी भाषा के अलावा, आधुनिक खोज इंजन आपको प्राकृतिक भाषा में एक प्रश्न दर्ज करने की अनुमति देते हैं।

अनुरोध वस्तुएक सूचना इकाई है जो एक स्वचालित खोज प्रणाली के डेटाबेस में संग्रहीत होती है। हालांकि सबसे आम अनुरोध वस्तु एक टेक्स्ट दस्तावेज़ है, लेकिन कोई मौलिक प्रतिबंध नहीं हैं। विशेष रूप से, छवियों, संगीत और अन्य मल्टीमीडिया जानकारी की खोज करना संभव है। IPS में सर्च ऑब्जेक्ट्स को दर्ज करने की प्रक्रिया को इंडेक्सिंग कहा जाता है। हमेशा से दूर, IPS वस्तु की एक सटीक प्रति संग्रहीत करता है, अक्सर इसके बजाय एक सरोगेट संग्रहीत किया जाता है।

सूचना पुनर्प्राप्ति कार्य

आईपी का केंद्रीय कार्य उपयोगकर्ता को उसकी सूचना की जरूरत को पूरा करने में मदद करना है। चूंकि उपयोगकर्ता की सूचना आवश्यकताओं का वर्णन करना तकनीकी रूप से कठिन है, इसलिए उन्हें एक क्वेरी के रूप में तैयार किया जाता है, जो कि खोजशब्दों का एक समूह है जो उपयोगकर्ता की तलाश में है।

आईपी का शास्त्रीय कार्य, जिसने इस क्षेत्र का विकास शुरू किया, दस्तावेजों की एक निश्चित स्थिर संग्रह के भीतर एक प्रश्न को संतुष्ट करने वाले दस्तावेजों की खोज है। लेकिन आईपी कार्यों की सूची का लगातार विस्तार हो रहा है और अब इसमें शामिल हैं:

मॉडलिंग के मुद्दे;
दस्तावेज़ फ़िल्टरिंग;
सर्च इंजन आर्किटेक्चर और यूजर इंटरफेस डिजाइन करना;
जानकारी का निष्कर्षण, विशेष रूप से एनोटेशन और दस्तावेजों का सारांश;

इसके अलावा, प्राकृतिक भाषाओं को संसाधित करने के लिए आईपी इंजन के सामने कुछ कार्य निर्धारित किए जाते हैं, जिसमें रूपात्मक विश्लेषण, लेक्सिकल पॉलीसेमी का समाधान, और इसी तरह शामिल हैं।

दक्षता रेटिंग

IPS द्वारा पाए गए दस्तावेज़ किसी क्वेरी से कितनी अच्छी तरह मेल खाते हैं, इसका मूल्यांकन करने के कई तरीके हैं। दुर्भाग्य से, किसी क्वेरी के मिलान की डिग्री की अवधारणा, या दूसरे शब्दों में प्रासंगिकता, एक व्यक्तिपरक अवधारणा है, और मिलान की डिग्री क्वेरी के परिणामों का मूल्यांकन करने वाले विशिष्ट व्यक्ति पर निर्भर करती है।

शुद्धता

इस आंकड़े में, प्रासंगिक बिंदु (रिले) सीधी रेखा के बाईं ओर हैं, और खोज इंजन (रेट्र) द्वारा पाए गए बिंदु अंडाकार में हैं। लाल रंग के क्षेत्र खोज इंजन त्रुटियों का प्रतिनिधित्व करते हैं। बाईं ओर का लाल क्षेत्र प्रासंगिक बिंदु है जो सिस्टम द्वारा नहीं पाया जाता है (लापता घटना), दाईं ओर का लाल क्षेत्र पाया जाता है लेकिन अप्रासंगिक बिंदु (झूठा अलार्म)। शुद्धताअंडाकार (क्षैतिज तीर) के संबंध में बाएं हरे क्षेत्र का अनुपात है। संपूर्णतासीधी रेखा (विकर्ण तीर) के बाईं ओर के क्षेत्र से बाएं हरे क्षेत्र का अनुपात है।

इसे IPS द्वारा पाए गए प्रासंगिक दस्तावेजों की संख्या के अनुपात के रूप में परिभाषित किया गया है, जो कुल मिले दस्तावेजों की संख्या है:

डेटाबेस में प्रासंगिक दस्तावेजों का सेट कहां है, और सिस्टम द्वारा पाए गए दस्तावेजों का सेट है। मुख्य रूसी और विदेशी खोज इंजनों के संकेतकों की प्रासंगिकता का मूल्यांकन करने वाली कंपनी द्वारा शोध के परिणामों के अनुसार।

पूर्णता (याद रखना)

संख्या अनुपात मिलाडेटाबेस में प्रासंगिक दस्तावेजों की कुल संख्या के लिए प्रासंगिक दस्तावेजों की संख्या:

डेटाबेस में प्रासंगिक दस्तावेजों का सेट कहां है, और सिस्टम द्वारा पाए गए दस्तावेजों का सेट है।

विवाद

ड्रॉपआउट एक अप्रासंगिक संसाधन खोजने की संभावना की विशेषता है और इसे डेटाबेस में अप्रासंगिक दस्तावेजों की कुल संख्या के लिए अप्रासंगिक दस्तावेजों की संख्या के अनुपात के रूप में परिभाषित किया गया है:

सेट कहाँ है नहींडेटाबेस में प्रासंगिक दस्तावेज़ों की संख्या, और - सिस्टम द्वारा पाए गए दस्तावेज़ों का सेट।

एफ-माप (एफ-माप, वैन रिस्बर्गेन उपाय)

कभी-कभी सटीकता को संयोजित करना और एकल औसत में याद करना उपयोगी होता है। इस उद्देश्य के लिए, अंकगणितीय माध्य उपयुक्त नहीं है, क्योंकि, उदाहरण के लिए, एक खोज इंजन के लिए सामान्य रूप से सभी दस्तावेजों को वापस करने के लिए पर्याप्त है ताकि शून्य के करीब सटीकता के साथ एक के बराबर पूर्णता सुनिश्चित हो सके, और अंकगणितीय माध्य सटीकता और रिकॉल कम से कम 1/2 होगा। हार्मोनिक माध्य में यह खामी नहीं है, क्योंकि औसत मूल्यों में बड़े अंतर के साथ यह उनमें से न्यूनतम तक पहुंच जाता है।

इसलिए, सटीकता और रिकॉल के संयुक्त आकलन के लिए एक अच्छा उपाय है एफ-माप, जिसे सटीकता के भारित हार्मोनिक माध्य के रूप में परिभाषित किया गया है पीऔर पूर्णता आर:

आमतौर पर एफ- माप फॉर्म में लिखा गया है

या तो एफ-माप सटीकता और रिकॉल को समान भार देता है और कहलाता है संतुलितया - उपाय(निचले सूचकांक में यह मूल्य इंगित करने के लिए प्रथागत है), इसके लिए अभिव्यक्ति सरल है

संतुलित का उपयोग करना एफ-माप वैकल्पिक हैं: सटीकता को वरीयता के साथ, और अधिक वजन के साथ पूर्णता प्राप्त होती है।

यह सभी देखें

सूचना पुनर्प्राप्ति विधियों के मूल्यांकन पर रूसी संगोष्ठी (ROMIP)

लिंक

साहित्य

बेज़ा-येट्स आर।, रिबेरो-नेटो बी।आधुनिक सूचना पुनर्प्राप्ति। - एडिसन-वेस्ले, 1999. - ISBN 0-201-39829-X
मैनिंग सी।, राघवन पी।, शुट्ज़ एच।सूचना पुनर्प्राप्ति का परिचय। - कैम्ब्रिज यूनिवर्सिटी प्रेस, 2008. - ISBN 0-521-86571-9
मैनिंग के।, राघवन पी।, शुत्ज़े एच।सूचना पुनर्प्राप्ति का परिचय। - विलियम्स, 2011. - आईएसबीएन 978-5-8459-1623-5
लांडे डी.वी., स्नार्स्की ए.ए., बेज़सुदनोव आई.वी.इंटरनेटिक्स: जटिल नेटवर्क नेविगेट करना: मॉडल और एल्गोरिदम। - एम .: लिब्रोकोम (संपादकीय यूआरएसएस), 2009. - 264 पी। - आईएसबीएन 978-5-397-00497-8

विकिमीडिया फाउंडेशन। 2010.

1. परिचय हर साल इंटरनेट की मात्रा कई गुना बढ़ जाती है, इसलिए आवश्यक जानकारी मिलने की संभावना नाटकीय रूप से बढ़ जाती है। इंटरनेट लाखों कंप्यूटरों को जोड़ता है, कई अलग-अलग नेटवर्क, उपयोगकर्ताओं की संख्या में सालाना 15-80% की वृद्धि हो रही है। और, फिर भी, इंटरनेट का उपयोग करते समय अधिक से अधिक बार, मुख्य समस्या आवश्यक जानकारी की कमी नहीं है, बल्कि इसे खोजने की क्षमता है। एक नियम के रूप में, एक सामान्य व्यक्ति, विभिन्न परिस्थितियों के कारण, अपनी आवश्यकता के उत्तर की खोज में 15-20 मिनट से अधिक समय नहीं लगा सकता है या नहीं देना चाहता है। इसलिए, सही ढंग से और सक्षम रूप से सीखना विशेष रूप से महत्वपूर्ण है, यह एक साधारण बात प्रतीत होती है - वांछित उत्तर प्राप्त करने के लिए कहां और कैसे देखना है। आपको आवश्यक जानकारी खोजने के लिए, आपको उसका पता ढूंढना होगा। इसके लिए, विशेष खोज सर्वर (सूचकांक रोबोट (खोज इंजन), विषयगत इंटरनेट निर्देशिका, मेटा-खोज सिस्टम, लोग खोज सेवाएँ, आदि) हैं। यह मास्टर क्लास इंटरनेट पर जानकारी खोजने के लिए मुख्य तकनीकों का खुलासा करता है, खोज टूल की सामान्य विशेषताएं प्रदान करता है, सबसे लोकप्रिय रूसी और अंग्रेजी खोज इंजनों के लिए खोज क्वेरी की संरचना की जांच करता है। 2. खोज प्रौद्योगिकियां वर्ल्ड वाइड वेब (WWW) को इंटरनेट पर दस्तावेज़ तैयार करने और रखने के लिए एक विशेष तकनीक माना जाता है। WWW में वेब पेज, इलेक्ट्रॉनिक लाइब्रेरी, कैटलॉग और यहां तक कि वर्चुअल म्यूजियम भी शामिल हैं! इतनी अधिक जानकारी के साथ, सवाल तेजी से उठता है: "इतने विशाल और बड़े पैमाने पर सूचना स्थान में कैसे नेविगेट किया जाए?" इस समस्या को हल करने में खोज उपकरण बचाव के लिए आते हैं। 2.1 खोज उपकरण खोज उपकरण विशेष सॉफ्टवेयर हैं, जिसका मुख्य उद्देश्य इंटरनेट उपयोगकर्ताओं के लिए सबसे इष्टतम और उच्च गुणवत्ता वाली जानकारी खोज प्रदान करना है। खोज उपकरण विशेष वेब सर्वर पर होस्ट किए जाते हैं, जिनमें से प्रत्येक एक विशिष्ट कार्य करता है:

वेब पेजों का विश्लेषण और विश्लेषण के परिणामों को खोज सर्वर डेटाबेस के एक या दूसरे स्तर पर दर्ज करना।
उपयोगकर्ता के अनुरोध पर जानकारी खोजें।
उपयोगकर्ता द्वारा जानकारी खोजने और खोज परिणाम देखने के लिए एक उपयोगकर्ता के अनुकूल इंटरफेस प्रदान करना।

इन या अन्य खोज उपकरणों के साथ काम करते समय उपयोग किए जाने वाले कार्य के तरीके लगभग समान होते हैं। उन पर चर्चा करने के लिए आगे बढ़ने से पहले, निम्नलिखित अवधारणाओं पर विचार करें:

खोज टूल इंटरफ़ेस को हाइपरलिंक, एक क्वेरी स्ट्रिंग (खोज स्ट्रिंग) और क्वेरी सक्रियण टूल वाले पृष्ठ के रूप में प्रस्तुत किया जाता है।
सर्च इंजन इंडेक्स एक सूचना आधार है जिसमें कुछ नियमों के अनुसार संकलित वेब पेजों के विश्लेषण का परिणाम होता है।
एक क्वेरी एक कीवर्ड या वाक्यांश है जिसे उपयोगकर्ता खोज बार में दर्ज करता है। विभिन्न प्रश्नों को बनाने के लिए विशेष वर्ण ("", ~), गणितीय प्रतीकों (*, +,?) का उपयोग किया जाता है।

सूचना खोज योजना सरल है। उपयोगकर्ता एक प्रमुख वाक्यांश टाइप करता है और खोज को सक्रिय करता है, जिससे तैयार (दिए गए) अनुरोध के अनुसार दस्तावेजों का चयन प्राप्त होता है। दस्तावेज़ों की इस सूची को कुछ मानदंडों के अनुसार रैंक किया गया है ताकि सूची के शीर्ष पर वे दस्तावेज़ हों जो उपयोगकर्ता की क्वेरी से सबसे अधिक निकटता से मेल खाते हों। प्रत्येक खोज उपकरण खोज परिणामों के विश्लेषण और सूचकांक के निर्माण (वेब पृष्ठों के सूचकांक डेटाबेस को भरने) दोनों में दस्तावेजों की रैंकिंग के लिए विभिन्न मानदंडों का उपयोग करता है। इस प्रकार, यदि आप प्रत्येक खोज उपकरण के लिए खोज स्ट्रिंग में समान डिज़ाइन की कोई क्वेरी निर्दिष्ट करते हैं, तो आप भिन्न खोज परिणाम प्राप्त कर सकते हैं। उपयोगकर्ता के लिए, यह बहुत महत्वपूर्ण है कि खोज परिणामों के अनुसार पहले दो या तीन दर्जन दस्तावेज़ों में कौन से दस्तावेज़ दिखाई देंगे और ये दस्तावेज़ किस हद तक उपयोगकर्ता की अपेक्षाओं के अनुरूप हैं। अधिकांश खोज उपकरण खोज के दो तरीके प्रदान करते हैं - सरल खोज (सरल खोज) और उन्नत खोज (उन्नत खोज) एक विशेष क्वेरी फ़ॉर्म के साथ और बिना। आइए अंग्रेजी भाषा के खोज इंजन के उदाहरण पर दोनों प्रकार की खोज पर विचार करें। उदाहरण के लिए, अल्टाविस्टा मनमाने प्रश्नों के लिए उपयोगी है, "सूचना प्रौद्योगिकी में ऑनलाइन डिग्री के बारे में कुछ", जबकि याहू खोज उपकरण आपको विश्व समाचार, विनिमय दर की जानकारी या मौसम पूर्वानुमान प्राप्त करने की अनुमति देता है। क्वेरी और उन्नत खोज तकनीकों को परिशोधित करने के मानदंडों में महारत हासिल करने से आप खोज की दक्षता में वृद्धि कर सकते हैं और आवश्यक जानकारी जल्दी से प्राप्त कर सकते हैं। सबसे पहले, आप प्रश्नों में तार्किक ऑपरेटरों (संचालन) या, और, निकट, नहीं, गणितीय और विशेष प्रतीकों का उपयोग करके खोज दक्षता बढ़ा सकते हैं। प्रचालकों और/या प्रतीकों की सहायता से, उपयोगकर्ता क्वेरी के लिए सबसे उपयुक्त खोज परिणाम प्राप्त करने के लिए खोजशब्दों को वांछित क्रम में जोड़ता है। अनुरोध प्रपत्र तालिका 1 में दिखाए गए हैं। तालिका 1

एक साधारण क्वेरी दस्तावेज़ों के कई लिंक देती है, क्योंकि सूची में अनुरोध पर दर्ज किए गए शब्दों में से एक या एक साधारण वाक्यांश (तालिका 1 देखें) वाले दस्तावेज़ शामिल हैं। और ऑपरेटर आपको यह निर्दिष्ट करने की अनुमति देता है कि सभी खोजशब्दों को दस्तावेज़ सामग्री में शामिल किया जाना चाहिए। हालाँकि, दस्तावेज़ों की संख्या अभी भी बड़ी हो सकती है और उनकी समीक्षा करने में लंबा समय लग सकता है। इसलिए, कुछ मामलों में निकट संदर्भ ऑपरेटर का उपयोग करना अधिक सुविधाजनक होता है, जो इंगित करता है कि शब्दों को दस्तावेज़ में पर्याप्त निकटता में स्थित होना चाहिए। नियर का उपयोग करने से पाए गए दस्तावेज़ों की संख्या बहुत कम हो जाती है। क्वेरी स्ट्रिंग में प्रतीक "*" की उपस्थिति का अर्थ है कि शब्द को उसके मास्क द्वारा खोजा जाएगा। उदाहरण के लिए, यदि हम क्वेरी स्ट्रिंग में "gov*" लिखते हैं, तो "gov" से शुरू होने वाले शब्दों वाले दस्तावेज़ों की एक सूची प्राप्त करें। ये शब्द सरकार, राज्यपाल आदि हो सकते हैं।

1। परिचय

हर साल इंटरनेट की मात्रा कई गुना बढ़ जाती है, इसलिए आवश्यक जानकारी मिलने की संभावना नाटकीय रूप से बढ़ जाती है। इंटरनेट लाखों कंप्यूटरों को जोड़ता है, कई अलग-अलग नेटवर्क, उपयोगकर्ताओं की संख्या में सालाना 15-80% की वृद्धि हो रही है। और, फिर भी, इंटरनेट का उपयोग करते समय अधिक से अधिक बार, मुख्य समस्या आवश्यक जानकारी की कमी नहीं है, बल्कि इसे खोजने की क्षमता है। एक नियम के रूप में, एक सामान्य व्यक्ति, विभिन्न परिस्थितियों के कारण, अपनी आवश्यकता के उत्तर की खोज में 15-20 मिनट से अधिक समय नहीं लगा सकता है या नहीं देना चाहता है। इसलिए, सही ढंग से और सक्षम रूप से सीखना विशेष रूप से महत्वपूर्ण है, यह एक साधारण बात प्रतीत होती है - वांछित उत्तर प्राप्त करने के लिए कहां और कैसे देखना है।

आपको आवश्यक जानकारी खोजने के लिए, आपको उसका पता ढूंढना होगा। इसके लिए, विशेष खोज सर्वर (सूचकांक रोबोट (खोज इंजन), विषयगत इंटरनेट निर्देशिका, मेटा-खोज सिस्टम, लोग खोज सेवाएँ, आदि) हैं। यह मास्टर क्लास इंटरनेट पर जानकारी खोजने के लिए मुख्य तकनीकों का खुलासा करता है, खोज टूल की सामान्य सुविधाएँ प्रदान करता है, सबसे लोकप्रिय रूसी-भाषा और अंग्रेजी-भाषा के खोज इंजनों के लिए खोज प्रश्नों की संरचना की जांच करता है।

2. खोज प्रौद्योगिकियां

वेब-प्रौद्योगिकी वर्ल्ड वाइड वेब (WWW) को इंटरनेट पर दस्तावेज़ तैयार करने और रखने के लिए एक विशेष तकनीक माना जाता है। WWW में वेब पेज, इलेक्ट्रॉनिक लाइब्रेरी, कैटलॉग और यहां तक कि वर्चुअल म्यूजियम भी शामिल हैं! इतनी अधिक जानकारी के साथ, सवाल तेजी से उठता है: "इतने विशाल और बड़े पैमाने पर सूचना स्थान में कैसे नेविगेट किया जाए?"
इस समस्या को हल करने में खोज उपकरण बचाव के लिए आते हैं।

2.1 खोज उपकरण

खोज उपकरण विशेष सॉफ्टवेयर हैं, जिसका मुख्य उद्देश्य इंटरनेट उपयोगकर्ताओं के लिए सबसे इष्टतम और उच्च गुणवत्ता वाली जानकारी खोज प्रदान करना है। खोज उपकरण विशेष वेब सर्वर पर होस्ट किए जाते हैं, जिनमें से प्रत्येक एक विशिष्ट कार्य करता है:

वेब पेजों का विश्लेषण और विश्लेषण के परिणामों को खोज सर्वर डेटाबेस के एक या दूसरे स्तर पर दर्ज करना।
उपयोगकर्ता के अनुरोध पर जानकारी खोजें।
उपयोगकर्ता द्वारा जानकारी खोजने और खोज परिणाम देखने के लिए एक उपयोगकर्ता के अनुकूल इंटरफेस प्रदान करना।

खोज टूल इंटरफ़ेस को हाइपरलिंक, एक क्वेरी स्ट्रिंग (खोज स्ट्रिंग) और क्वेरी सक्रियण टूल वाले पृष्ठ के रूप में प्रस्तुत किया जाता है।
सर्च इंजन इंडेक्स एक सूचना आधार है जिसमें कुछ नियमों के अनुसार संकलित वेब पेजों के विश्लेषण का परिणाम होता है।
एक क्वेरी एक कीवर्ड या वाक्यांश है जिसे उपयोगकर्ता खोज बार में दर्ज करता है। विभिन्न प्रश्नों को बनाने के लिए विशेष वर्ण ("", ~), गणितीय प्रतीकों (*, +,?) का उपयोग किया जाता है।

इंटरनेट पर जानकारी खोजने की योजना सरल है। उपयोगकर्ता एक प्रमुख वाक्यांश टाइप करता है और खोज को सक्रिय करता है, जिससे तैयार (दिए गए) अनुरोध के अनुसार दस्तावेजों का चयन प्राप्त होता है। दस्तावेज़ों की इस सूची को कुछ मानदंडों के अनुसार रैंक किया गया है ताकि सूची के शीर्ष पर वे दस्तावेज़ हों जो उपयोगकर्ता की क्वेरी से सबसे अधिक निकटता से मेल खाते हों। प्रत्येक खोज उपकरण खोज परिणामों के विश्लेषण और सूचकांक के निर्माण (वेब पृष्ठों के सूचकांक डेटाबेस को भरने) दोनों में दस्तावेजों की रैंकिंग के लिए विभिन्न मानदंडों का उपयोग करता है।

इस प्रकार, यदि आप प्रत्येक खोज उपकरण के लिए खोज स्ट्रिंग में समान डिज़ाइन की कोई क्वेरी निर्दिष्ट करते हैं, तो आप भिन्न खोज परिणाम प्राप्त कर सकते हैं। उपयोगकर्ता के लिए, यह बहुत महत्वपूर्ण है कि खोज परिणामों के अनुसार पहले दो या तीन दर्जन दस्तावेज़ों में कौन से दस्तावेज़ दिखाई देंगे और ये दस्तावेज़ किस हद तक उपयोगकर्ता की अपेक्षाओं के अनुरूप हैं।

अधिकांश खोज उपकरण खोज करने के दो तरीके प्रदान करते हैं − सरल खोज(सरल खोज) और उन्नत खोज(उन्नत खोज) एक विशेष अनुरोध फ़ॉर्म के साथ और बिना। आइए अंग्रेजी भाषा के खोज इंजन के उदाहरण पर दोनों प्रकार की खोज पर विचार करें।

उदाहरण के लिए, अल्टाविस्टा मनमाने प्रश्नों के लिए उपयोगी है, "सूचना प्रौद्योगिकी में ऑनलाइन डिग्री के बारे में कुछ", जबकि याहू खोज उपकरण आपको विश्व समाचार, विनिमय दर की जानकारी या मौसम पूर्वानुमान प्राप्त करने की अनुमति देता है।

क्वेरी और उन्नत खोज तकनीकों को परिशोधित करने के मानदंडों में महारत हासिल करने से आप खोज की दक्षता में वृद्धि कर सकते हैं और आवश्यक जानकारी जल्दी से प्राप्त कर सकते हैं। सबसे पहले, आप प्रश्नों में तार्किक ऑपरेटरों (संचालन) या, और, निकट, नहीं, गणितीय और विशेष प्रतीकों का उपयोग करके खोज दक्षता बढ़ा सकते हैं। प्रचालकों और/या प्रतीकों की सहायता से, उपयोगकर्ता क्वेरी के लिए सबसे उपयुक्त खोज परिणाम प्राप्त करने के लिए खोजशब्दों को वांछित क्रम में जोड़ता है। अनुरोध प्रपत्र तालिका 1 में दिखाए गए हैं।

तालिका नंबर एक

समान रूप से लोकप्रिय खोज इंजन Rambler अपने स्वयं के डेटाबेस से लिंक ट्रैफ़िक पर आँकड़े रखता है, वही तार्किक ऑपरेटर AND, OR, NOT, metacharacter * (AltaVista में वर्ण के समान जो क्वेरी श्रेणी का विस्तार करता है), गुणांक चिह्न + और - हैं क्वेरी में दर्ज किए गए महत्व वाले शब्दों को बढ़ाने या घटाने के लिए समर्थित है।

आइए इंटरनेट पर सबसे लोकप्रिय सूचना खोज तकनीकों को देखें।

2.2 खोज इंजन

वेब सर्च इंजन URL के विशाल डेटाबेस वाले सर्वर होते हैं जो स्वचालित रूप से इन सभी पतों पर WWW पृष्ठों तक पहुंचते हैं, इन पृष्ठों की सामग्री की जांच करते हैं, पृष्ठों से अपने डेटाबेस (इंडेक्स पेज) में कीवर्ड बनाते हैं और लिखते हैं।

इसके अलावा, खोज इंजन रोबोट पृष्ठों पर मिलने वाले लिंक का अनुसरण करते हैं और उन्हें पुन: अनुक्रमित करते हैं। चूंकि लगभग किसी भी WWW पृष्ठ में अन्य पृष्ठों के कई लिंक होते हैं, ऐसे कार्य के साथ, अंतिम परिणाम में खोज इंजन सैद्धांतिक रूप से इंटरनेट पर सभी साइटों को बायपास कर सकता है।

यह इस प्रकार के खोज उपकरण हैं जो सभी इंटरनेट उपयोगकर्ताओं के बीच सबसे प्रसिद्ध और लोकप्रिय हैं। हर कोई जाने-माने वेब सर्च इंजन (सर्च इंजन) के नाम जानता है - यांडेक्स, रैम्बलर, एपोर्ट।

इस प्रकार के सर्च टूल का उपयोग करने के लिए, आपको इसमें जाना होगा और सर्च बार में वह कीवर्ड टाइप करना होगा जिसमें आप रुचि रखते हैं। इसके बाद, आपको खोज इंजन डेटाबेस में संग्रहीत लिंक से एक आउटपुट प्राप्त होगा जो आपकी क्वेरी के सबसे करीब है। खोज को सबसे प्रभावी बनाने के लिए, निम्नलिखित बातों पर पहले से ध्यान दें:

अनुरोध के विषय पर निर्णय लें। अंत में आप क्या ढूंढ रहे हैं?
भाषा, व्याकरण, विभिन्न गैर-वर्णमाला वर्णों के उपयोग, आकृति विज्ञान पर ध्यान दें। कुंजी शब्दों को सही ढंग से तैयार करना और दर्ज करना भी महत्वपूर्ण है। प्रत्येक खोज इंजन का अनुरोध करने का अपना रूप होता है - सिद्धांत समान होता है, लेकिन उपयोग किए गए प्रतीक या ऑपरेटर भिन्न हो सकते हैं। आवश्यक अनुरोध प्रपत्र भी खोज इंजन सॉफ़्टवेयर की जटिलता और उनके द्वारा प्रदान की जाने वाली सेवाओं के आधार पर भिन्न होते हैं। एक तरह से या किसी अन्य, प्रत्येक खोज इंजन में एक अनुभाग "सहायता" ("सहायता") होता है, जहां सभी वाक्यविन्यास नियम, साथ ही खोज के लिए अनुशंसाएं और सुझाव, एक सुलभ तरीके से (खोज इंजन पृष्ठों का स्क्रीनशॉट) समझाया जाता है।
विभिन्न खोज इंजनों की क्षमताओं का उपयोग करें। यदि आप इसे यांडेक्स पर नहीं ढूंढ पा रहे हैं, तो Google का प्रयास करें। उन्नत खोज सेवाओं का उपयोग करें।
कुछ शर्तों वाले दस्तावेज़ों को बाहर करने के लिए, ऐसे प्रत्येक शब्द से पहले "-" चिह्न का उपयोग करें। उदाहरण के लिए, यदि आप "हेमलेट" के अपवाद के साथ शेक्सपियर के कार्यों के बारे में जानकारी चाहते हैं, तो फॉर्म में क्वेरी दर्ज करें: "शेक्सपियर-हेमलेट"। और इसके विपरीत, खोज परिणामों में कुछ लिंक शामिल करने के लिए, "+" प्रतीक का उपयोग करें। इसलिए, विशेष रूप से कारों की बिक्री के बारे में लिंक खोजने के लिए, आपको "सेल + कार" क्वेरी की आवश्यकता है। अपनी खोज की दक्षता और सटीकता बढ़ाने के लिए, इन वर्णों के संयोजन का उपयोग करें।
खोज परिणामों की सूची में प्रत्येक लिंक में पाया गया दस्तावेज़ से कई पंक्तियाँ हैं, जिनमें से आपके कीवर्ड हैं। लिंक पर क्लिक करने से पहले, अनुरोध के विषय के लिए स्निपेट की प्रासंगिकता का मूल्यांकन करें। किसी विशिष्ट साइट के लिंक पर क्लिक करने के बाद, मुख्य पृष्ठ के चारों ओर ध्यान से देखें। एक नियम के रूप में, पहला पृष्ठ यह समझने के लिए पर्याप्त है कि आप पते पर आए हैं या नहीं। यदि हाँ, तो चयनित साइट (साइट के अनुभागों में) पर आवश्यक जानकारी के लिए आगे की खोज करें, यदि नहीं, तो खोज परिणामों पर वापस जाएँ और अगला लिंक आज़माएँ।
याद रखें कि खोज इंजन स्वतंत्र जानकारी (स्वयं के बारे में स्पष्टीकरण को छोड़कर) का उत्पादन नहीं करते हैं। खोज इंजन सूचना के स्वामी (वेबसाइट) और आपके बीच केवल एक मध्यस्थ है। डेटाबेस लगातार अपडेट किए जाते हैं, उनमें नए पते दर्ज किए जाते हैं, लेकिन दुनिया में वास्तव में मौजूद जानकारी का बैकलॉग अभी भी बना हुआ है। सिर्फ इसलिए कि सर्च इंजन प्रकाश की गति से काम नहीं करते।

सबसे प्रसिद्ध वेब सर्च इंजनों में Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos शामिल हैं। रूसी बोलने वालों में, कोई यांडेक्स, रामब्लर, एपोर्ट को बाहर कर सकता है।

खोज इंजन सबसे बड़े और सबसे मूल्यवान हैं, लेकिन वेब पर सूचना के एकमात्र स्रोतों से बहुत दूर हैं, क्योंकि उनके अलावा इंटरनेट पर खोज करने के अन्य तरीके भी हैं।

2.3 निर्देशिकाएं

इंटरनेट संसाधनों की सूची एक निरंतर अद्यतन और फिर से भरी जाने वाली पदानुक्रमित सूची है जिसमें कई श्रेणियां और अलग-अलग वेब सर्वर उनकी सामग्री के संक्षिप्त विवरण के साथ होते हैं। कैटलॉग खोज पद्धति का अर्थ है "चरणों को नीचे ले जाना", अर्थात, अधिक सामान्य श्रेणियों से अधिक की ओर बढ़ना विशिष्ट वाले। विषयगत निर्देशिकाओं के फायदों में से एक यह है कि लिंक के स्पष्टीकरण निर्देशिका के रचनाकारों द्वारा दिए गए हैं और इसकी सामग्री को पूरी तरह से प्रतिबिंबित करते हैं, यानी यह आपको अधिक सटीक रूप से यह निर्धारित करने का अवसर देता है कि सर्वर की सामग्री उद्देश्य से कैसे मेल खाती है आपकी खोज का।

विषयगत रूसी-भाषा कैटलॉग का एक उदाहरण संसाधन है http://www.ulitka.ru/।

इस साइट के मुख्य पृष्ठ पर एक विषयगत रूब्रिकेटर है,

जिसकी मदद से उपयोगकर्ता अपनी रुचि के उत्पादों के लिंक के साथ रूब्रिक में प्रवेश करता है।

इसके अलावा, कुछ विषय निर्देशिकाएं आपको कीवर्ड द्वारा खोज करने की अनुमति देती हैं। उपयोगकर्ता खोज बार में वांछित कीवर्ड दर्ज करता है

और उन साइटों के विवरण के साथ लिंक की एक सूची प्राप्त करता है जो उसके अनुरोध से सबसे अधिक निकटता से मेल खाते हैं। यह ध्यान दिया जाना चाहिए कि यह खोज WWW सर्वर की सामग्री में नहीं होती है, बल्कि निर्देशिका में संग्रहीत उनके संक्षिप्त विवरण में होती है।

हमारे उदाहरण में, निर्देशिका में विज़िट की संख्या के अनुसार, वर्णानुक्रम में, प्रविष्टि की तिथि के अनुसार साइटों को क्रमबद्ध करने की क्षमता भी है।

रूसी-भाषा निर्देशिकाओं के अन्य उदाहरण:
कैटलॉग@Mail.ru
वेबलिस्ट
Vsego.ru
अंग्रेजी भाषा की निर्देशिकाओं में से हैं:
http://www.DMOS.org
http://www.yahoo.com/
http://www.looksmart.com

2.4 लिंक का संग्रह

लिंक संग्रह विषय द्वारा क्रमबद्ध लिंक हैं। वे सामग्री के मामले में एक-दूसरे से काफी भिन्न हैं, इसलिए अपनी रुचियों के लिए सबसे उपयुक्त चयन खोजने के लिए, आपको अपनी राय बनाने के लिए स्वयं उनके माध्यम से चलने की आवश्यकता है।

एक उदाहरण के रूप में, हम "इंटरनेट के खजाने" JSC "Relcom" लिंक का चयन देंगे।

उपयोगकर्ता, उसके लिए रुचि के किसी भी अनुभाग पर क्लिक करके

विषय

मोटर चालकों के लिए

खगोल विज्ञान और ज्योतिष
अपका घर
आपके पालतू जानवर
बच्चे जीवन के फूल हैं
आराम
इंटरनेट पर शहर
स्वास्थ्य और चिकित्सा
सूचना एजेंसियां और सेवाएं
स्थानीय विद्या का संग्रहालय, आदि,

ऑटोमोटिव इलेक्ट्रॉनिक्स।
प्राचीन मोटर वाहन संग्रहालय।
कार मालिकों के कानूनी संरक्षण बोर्ड।
स्पोर्टड्राइव

इस प्रकार के खोज टूल का लाभ उनका फोकस है, आमतौर पर चयन में दुर्लभ इंटरनेट संसाधन शामिल होते हैं, जिन्हें किसी विशिष्ट वेबमास्टर या वेब पेज के मालिक द्वारा चुना जाता है।

2.5 पता डेटाबेस

पता डेटाबेस विशेष खोज सर्वर होते हैं जो आमतौर पर गतिविधि के प्रकार, प्रदान किए गए उत्पादों और सेवाओं और भूगोल द्वारा वर्गीकरण का उपयोग करते हैं। कभी-कभी उन्हें वर्णानुक्रमिक खोज द्वारा पूरक किया जाता है। डेटाबेस रिकॉर्ड उन साइटों के बारे में जानकारी संग्रहीत करता है जो शुल्क के लिए ई-मेल पते, संगठन और डाक पते के बारे में जानकारी प्रदान करती हैं।

सबसे बड़ा अंग्रेजी भाषा का पता डेटाबेस कहा जा सकता है: http://www.lookup.com/ -

इन उपनिर्देशिकाओं में प्रवेश करने पर, उपयोगकर्ता उन साइटों के लिंक ढूंढता है जो उसे रुचि की जानकारी प्रदान करती हैं।

रूसी संघ में पतों के व्यापक रूप से उपलब्ध और आधिकारिक डेटाबेस हमारे लिए अज्ञात हैं।

2.6 गोफर अभिलेखागार खोजना

गोफर इंटरनेट पर वितरित सर्वरों (गोफर स्पेस) की एक परस्पर जुड़ी हुई प्रणाली है।

गोफर अंतरिक्ष में सबसे समृद्ध साहित्यिक पुस्तकालय एकत्र किया जाता है, लेकिन सामग्री दूरस्थ रूप से देखने के लिए उपलब्ध नहीं है: उपयोगकर्ता केवल सामग्री की श्रेणीबद्ध रूप से व्यवस्थित तालिका देख सकता है और शीर्षक द्वारा एक फ़ाइल का चयन कर सकता है। एक विशेष कार्यक्रम (वेरोनिका) की मदद से ऐसी खोज कीवर्ड पर आधारित प्रश्नों का उपयोग करके स्वचालित रूप से की जा सकती है।

1995 तक, गोफर सबसे गतिशील इंटरनेट तकनीक थी: संबंधित सर्वरों की संख्या की वृद्धि दर अन्य सभी प्रकार के इंटरनेट के सर्वरों की वृद्धि दर से आगे निकल गई। EUnet/Relcom नेटवर्क में, गोफर सर्वरों को सक्रिय विकास नहीं मिला है, और आज लगभग कोई भी उन्हें याद नहीं करता है।

2.7 एफ़टीपी फ़ाइल खोज प्रणाली (एफ़टीपी खोज)

एक एफ़टीपी फ़ाइल खोज इंजन एक विशेष प्रकार का इंटरनेट खोज इंजन है जो आपको "अनाम" एफ़टीपी सर्वर पर उपलब्ध फाइलों को खोजने की अनुमति देता है। एफ़टीपी प्रोटोकॉल को नेटवर्क पर फ़ाइलों को स्थानांतरित करने के लिए डिज़ाइन किया गया है, और इस अर्थ में, यह कार्यात्मक रूप से गोफर का एक प्रकार का एनालॉग है।

मुख्य खोज मानदंड विभिन्न तरीकों से निर्दिष्ट फ़ाइल नाम है (सटीक मिलान, सबस्ट्रिंग, नियमित अभिव्यक्ति, आदि)। इस प्रकार की खोज, निश्चित रूप से, क्षमताओं के मामले में खोज इंजन के साथ प्रतिस्पर्धा नहीं कर सकती है, क्योंकि खोज के दौरान फ़ाइलों की सामग्री को किसी भी तरह से ध्यान में नहीं रखा जाता है, और फ़ाइलों को, जैसा कि आप जानते हैं, मनमाने नाम दिए जा सकते हैं। हालांकि, अगर आपको कुछ प्रसिद्ध प्रोग्राम या मानक विवरण खोजने की ज़रूरत है, तो उच्च संभावना के साथ फ़ाइल में उपयुक्त नाम होगा, और आप इसे एफ़टीपी खोज सर्वरों में से किसी एक का उपयोग करके ढूंढ सकते हैं:

FileSearch FTP सर्वर पर फ़ाइलों को स्वयं फ़ाइलों और निर्देशिकाओं के नाम से खोजता है। यदि आप किसी प्रोग्राम या कुछ और की तलाश में हैं, तो WWW-सर्वर पर आपको उनका विवरण मिल जाएगा, और FTP- सर्वर से आप उन्हें स्वयं डाउनलोड कर सकते हैं।

2.8 यूज़नेट समाचार सम्मेलनों में खोज इंजन

USENET NEWS इंटरनेट कम्युनिटी टेलीकांफ्रेंसिंग सिस्टम है। पश्चिम में, इस सेवा को समाचार कहा जाता है। टेलीकांफ्रेंसिंग का एक करीबी एनालॉग FIDO नेटवर्क में तथाकथित "गूंज" हैं।

टेलीकांफ्रेंस सब्सक्राइबर के दृष्टिकोण से, USENET एक बुलेटिन बोर्ड है जिसमें ऐसे अनुभाग हैं जहाँ आप राजनीति से लेकर बागवानी तक हर चीज़ पर लेख पा सकते हैं। यह बुलेटिन बोर्ड ईमेल के समान कंप्यूटर के माध्यम से पहुँचा जा सकता है। अपने कंप्यूटर को छोड़े बिना, आप किसी विशेष सम्मेलन में लेख पढ़ या पोस्ट कर सकते हैं, उपयोगी सलाह पा सकते हैं या चर्चा में शामिल हो सकते हैं। स्वाभाविक रूप से, लेख कंप्यूटर पर जगह लेते हैं, इसलिए वे हमेशा के लिए संग्रहीत नहीं होते हैं, लेकिन समय-समय पर नष्ट हो जाते हैं, नए लोगों के लिए जगह बनाते हैं। दुनिया भर में, यूज़नेट सम्मेलनों में जानकारी खोजने के लिए सबसे अच्छी सेवा Google समूह सर्वर (गूगल इंक.) है।

Google समूह एक मुफ़्त ऑनलाइन समुदाय और चर्चा समूह सेवा है जो इंटरनेट पर यूज़नेट संदेशों का सबसे बड़ा संग्रह प्रदान करता है (एक अरब से अधिक संदेश)। सेवा के उपयोग की शर्तों के बारे में अधिक जानकारी के लिए, कृपया http://groups पर जाएं। google.com/intl/ru /googlegroups/tour/index.html

रूसी बोलने वालों में, USENET वर्ल्ड सिस्टम सर्वर और रिलकॉम टेलीकॉन्फ्रेंस सबसे अलग हैं। अन्य खोज सेवाओं की तरह, उपयोगकर्ता एक क्वेरी स्ट्रिंग टाइप करता है, और सर्वर कीवर्ड वाले सम्मेलनों की एक सूची तैयार करता है। इसके बाद, आपको समाचार कार्यक्रम में चयनित सम्मेलनों की सदस्यता लेने की आवश्यकता है। एक समान रूसी FidoNet ऑनलाइन सर्वर भी है: WWW पर फ़िदो सम्मेलन।

2.9 मेटा सर्च सिस्टम

एक साथ कई खोज इंजनों के डेटाबेस में त्वरित खोज के लिए, मेटा-सर्च सिस्टम की ओर मुड़ना बेहतर है।

मेटा सर्च इंजन ऐसे सर्च इंजन हैं जो आपकी क्वेरी को विभिन्न खोज इंजनों की एक बड़ी संख्या में भेजते हैं, फिर परिणामों को संसाधित करते हैं, डुप्लिकेट संसाधन पते हटाते हैं, और इंटरनेट पर प्रस्तुत की जाने वाली विस्तृत श्रृंखला प्रस्तुत करते हैं।

दुनिया का सबसे लोकप्रिय मेटा-सर्च इंजन Search.com है।

CNET, Inc से एकीकृत Search.com सर्च इंजन। इसमें लगभग दो दर्जन सर्च इंजन शामिल हैं, जिनके लिंक पूरे इंटरनेट से भरे हुए हैं।

इस प्रकार के खोज उपकरणों का उपयोग करके, उपयोगकर्ता विभिन्न प्रकार के खोज इंजनों में जानकारी खोज सकता है, लेकिन इन प्रणालियों के नकारात्मक पक्ष को उनकी अस्थिरता कहा जा सकता है।

2.10 लोग सर्च सिस्टम

लोग सर्च सिस्टम विशेष सर्वर हैं जो आपको इंटरनेट पर लोगों को खोजने की अनुमति देते हैं, उपयोगकर्ता पूरा नाम निर्दिष्ट कर सकता है। व्यक्ति और उनका ईमेल पता और यूआरएल प्राप्त करें। हालांकि, यह ध्यान दिया जाना चाहिए कि लोग खोज इंजन आम तौर पर यूज़नेट मंचों जैसे खुले स्रोतों से ईमेल पते के बारे में जानकारी लेते हैं। सबसे प्रसिद्ध लोगों में खोज प्रणाली हैं:

ई-मेल पते ढूँढना

संपर्क जानकारी (प्रथम नाम। शहर, अंतिम नाम, फोन नंबर) के लिए विशेष खोज क्षेत्रों में, आप अपनी रुचि की जानकारी पा सकते हैं।

लोग सर्च इंजन वास्तव में बड़े सर्वर होते हैं, उनके डेटाबेस में लगभग 6,000,000 पते होते हैं।

3. निष्कर्ष

हमने इंटरनेट पर जानकारी खोजने के लिए मुख्य तकनीकों की समीक्षा की और सामान्य शब्दों में इंटरनेट पर मौजूद खोज टूल के साथ-साथ सबसे लोकप्रिय रूसी-भाषा और अंग्रेजी-भाषा के खोज इंजनों के लिए खोज क्वेरी की संरचना प्रस्तुत की, और, उपरोक्त संक्षेप में, हम यह नोट करना चाहते हैं कि इंटरनेट पर जानकारी की खोज करने वाली एकल इष्टतम योजना मौजूद नहीं है। आपको आवश्यक विशिष्ट जानकारी के आधार पर, आप उपयुक्त खोज टूल और सेवाओं का उपयोग कर सकते हैं। और खोज परिणामों की गुणवत्ता इस बात पर निर्भर करती है कि खोज सेवाओं को कितनी कुशलता से चुना गया है।

इंटरनेट एक विशाल गति से बढ़ रहा है और किसी विशेष उपयोगकर्ता द्वारा आवश्यक जानकारी प्राप्त करना बहुत आसान नहीं है। लेकिन यह संभव है, क्योंकि नेटवर्क में ऐसे संसाधन हैं जो शुरुआती और पेशेवर दोनों को सूचना के सागर में नहीं डूबने में मदद करेंगे।

वर्ल्ड वाइड वेब का उदय सूचना प्रौद्योगिकी के क्षेत्र में एक मात्रात्मक और गुणात्मक छलांग बन गया है। नए संसाधनों की संख्या और उनमें निहित जानकारी की मात्रा हिमस्खलन की तरह बढ़ रही है, सूचना "घास के ढेर" में सुइयों की संख्या और तदनुसार, घास के ढेर का आकार बढ़ रहा है। नेटवर्क पर जानकारी खोजने के लिए, निम्न प्रकार के संसाधन उपलब्ध हैं:

- सूचना पोर्टल;
- इंटरनेट संसाधनों की सूची;
- खोज इंजन।

इंटरनेट धीरे-धीरे दुनिया भर के उपयोगकर्ताओं के विशाल दर्शकों और अविश्वसनीय मात्रा में जानकारी के साथ एक माध्यम में बदल गया है। यह सूचना का एक वैश्विक साधन बन गया है जिसने पूरे विश्व को संचार चैनलों से उलझा दिया है, लेकिन उस मीडिया को अवशोषित नहीं किया है जिसका हम उपयोग करते हैं, वे स्वतंत्र सूचना संसाधनों के रूप में नेटवर्क में व्यवस्थित रूप से शामिल हो गए हैं। दुनिया के किसी भी देश में लगभग हर अखबार, रेडियो स्टेशन या टीवी चैनल का इंटरनेट पर अपना प्रतिनिधित्व है।

समाचार पत्र का इलेक्ट्रॉनिक संस्करण, एक नियम के रूप में, कागज के संस्करण से बहुत अलग है, इसकी मात्रा से काफी अधिक है - इंटरनेट साइटों पर प्रकाशित डेटा का प्रारूप अधिक लचीला है, यह सामग्री के लिए आवंटित पृष्ठों तक सीमित नहीं है। , समाचार पत्र और पत्रिका कॉलम। अन्तरक्रियाशीलता का एक तत्व प्रकट होता है - पाठक अपनी टिप्पणियों और प्रतिक्रिया को पढ़े गए लेख, समाचार और विश्लेषणात्मक समीक्षा पर छोड़ सकते हैं।

कुछ पत्रिकाओं, जैसे TIMES, ने अपने पूरे अस्तित्व के दौरान अखबार के अभिलेखागार को डिजिटाइज़ किया है, जिसमें वे वर्ष भी शामिल हैं जब अभी तक कोई कंप्यूटर या कंप्यूटर नेटवर्क नहीं थे, हालांकि, ऐसे अभिलेखागार के माध्यम से खोज करना भुगतान किया जाता है और काफी महंगा होता है।

इंटरनेट उपयोगकर्ताओं और जनसंचार माध्यमों के लिए संचालन संबंधी जानकारी का सबसे आधिकारिक और पेशेवर स्रोत समाचार एजेंसियों के वेब संसाधन हैं। इंटरनेट पर और इलेक्ट्रॉनिक संचार चैनलों के माध्यम से दैनिक और प्रति घंटा एक विस्तृत संवाददाता नेटवर्क रखते हुए, वे सामाजिक-राजनीतिक, आर्थिक, वैज्ञानिक, वित्तीय जानकारी का प्रसार करते हैं।

खोज के औज़ार

1. वेब पेजों का विश्लेषण और खोज सर्वर के डेटाबेस के एक या दूसरे स्तर पर विश्लेषण के परिणाम दर्ज करना।
2. उपयोगकर्ता के अनुरोध पर जानकारी खोजें।
3. उपयोगकर्ता द्वारा जानकारी खोजने और खोज परिणाम देखने के लिए एक उपयोगकर्ता के अनुकूल इंटरफेस प्रदान करना।

1. खोज टूल इंटरफ़ेस को हाइपरलिंक, एक क्वेरी स्ट्रिंग (खोज स्ट्रिंग) और क्वेरी सक्रियण टूल वाले पृष्ठ के रूप में प्रस्तुत किया जाता है।
2. सर्च इंजन इंडेक्स एक सूचना आधार है जिसमें कुछ नियमों के अनुसार संकलित वेब पेजों के विश्लेषण का परिणाम होता है।
3. क्वेरी एक कीवर्ड या वाक्यांश है जिसे उपयोगकर्ता खोज बार में दर्ज करता है। विभिन्न प्रश्नों को बनाने के लिए विशेष वर्णों ("", |, ~), गणितीय प्रतीकों (*, +,?) का उपयोग किया जाता है।

अधिकांश खोज उपकरण खोज करने के दो तरीके प्रदान करते हैं - सरल खोज(सरल खोज) और उन्नत खोज(उन्नत खोज) एक विशेष अनुरोध फ़ॉर्म के साथ और बिना। आइए अंग्रेजी भाषा के खोज इंजन के उदाहरण पर दोनों प्रकार की खोज पर विचार करें।

रूसी भाषा की जानकारी के लिए सबसे विकसित खोज सेवा यांडेक्स खोज सर्वर द्वारा प्रदान की जाती है। यांडेक्स में, आप बस रूसी में एक वाक्यांश लिख सकते हैं जो यह बताता है कि आप क्या खोजना चाहते हैं, और सिस्टम आपके अनुरोध का विश्लेषण और प्रक्रिया करेगा, और फिर किसी दिए गए विषय से संबंधित हर चीज को खोजने का प्रयास करेगा। आप विशेष ऑपरेटरों का उपयोग करके, एक स्ट्रिंग बना सकते हैं जो खोज इंजन को समझाती है कि आपकी रुचि की जानकारी के लिए आपकी आवश्यकताएं क्या होनी चाहिए।

इंटरनेट पर सबसे लोकप्रिय सूचना खोज प्रौद्योगिकियां.

इंटरनेट में सूचना खोज प्रौद्योगिकी। खोज उपकरण के प्रकार

1। परिचय

2. खोज प्रौद्योगिकियां

2.1 खोज के औज़ार

2.2 खोज इंजन

2.3 निर्देशिका

2.4 लिंक का संग्रह

2.5 पता डेटाबेस

2.6 गोफर अभिलेखागार खोज रहे हैं

2.7 एफ़टीपी फ़ाइल खोज प्रणाली (एफ़टीपी खोज)

2.8 यूज़नेट समाचार सम्मेलनों में खोज इंजन

2.9 मेटा सर्च सिस्टम

2.10 लोग खोज प्रणाली

3. निष्कर्ष

अनुबंध । सर्च इंजन के बारे में संक्षिप्त जानकारी

1। परिचय

हर साल इंटरनेट की मात्रा कई गुना बढ़ जाती है, इसलिए आवश्यक जानकारी मिलने की संभावना नाटकीय रूप से बढ़ जाती है।

इंटरनेट लाखों कंप्यूटरों को जोड़ता है, कई अलग-अलग नेटवर्क, उपयोगकर्ताओं की संख्या में सालाना 15-80% की वृद्धि हो रही है। और फिर भी, तेजी से इंटरनेट का उपयोग करते समय, मुख्य समस्या आवश्यक जानकारी का अभाव नहीं है, लेकिनइसे खोजने का अवसर. एक नियम के रूप में, एक सामान्य व्यक्ति, विभिन्न परिस्थितियों के कारण, अपनी आवश्यकता के उत्तर की खोज में 15-20 मिनट से अधिक समय नहीं लगा सकता है या नहीं देना चाहता है। इसलिए, सही ढंग से और सक्षम रूप से सीखना विशेष रूप से महत्वपूर्ण है, यह एक साधारण बात प्रतीत होती है - वांछित उत्तर प्राप्त करने के लिए कहां और कैसे देखना है।

इसके अलावा, इंटरनेट पर जानकारी खोजने के लिए मुख्य तकनीकों का खुलासा किया जाता है, खोज टूल की सामान्य विशेषताएं प्रदान की जाती हैं, और सबसे लोकप्रिय रूसी-भाषा और अंग्रेजी-भाषा के खोज इंजनों के लिए खोज क्वेरी संरचनाओं पर विचार किया जाता है।

2. खोज प्रौद्योगिकियां

वेब-प्रौद्योगिकी वर्ल्ड वाइड वेब (WWW) को इंटरनेट पर दस्तावेज़ तैयार करने और रखने के लिए एक विशेष तकनीक माना जाता है। WWW में वेब पेज, इलेक्ट्रॉनिक लाइब्रेरी, कैटलॉग और यहां तक कि वर्चुअल म्यूजियम भी शामिल हैं! इतनी अधिक जानकारी के साथ, सवाल तेजी से उठता है: "इतने विशाल और बड़े पैमाने पर सूचना स्थान में कैसे नेविगेट किया जाए?" इस समस्या को हल करने में मदद करें खोज के औज़ार.

2.1 खोज उपकरण

1. वेब पेजों का विश्लेषण और खोज सर्वर के डेटाबेस के एक या दूसरे स्तर पर विश्लेषण के परिणाम दर्ज करना।

2. उपयोगकर्ता के अनुरोध पर जानकारी खोजें।

3. उपयोगकर्ता द्वारा जानकारी खोजने और खोज परिणाम देखने के लिए एक उपयोगकर्ता के अनुकूल इंटरफेस प्रदान करना।

इन या अन्य खोज उपकरणों के साथ काम करते समय उपयोग किए जाने वाले कार्य के तरीके लगभग समान होते हैं।

आइए पहले निम्नलिखित अवधारणाओं पर विचार करें:

1. खोज टूल इंटरफ़ेस को हाइपरलिंक, एक क्वेरी स्ट्रिंग (खोज स्ट्रिंग) और क्वेरी सक्रियण टूल वाले पृष्ठ के रूप में प्रस्तुत किया जाता है।

2. सर्च इंजन इंडेक्स- यह एक सूचना आधार है जिसमें कुछ नियमों के अनुसार संकलित वेब पेजों के विश्लेषण का परिणाम होता है।

3. क्वेरी एक कीवर्ड या वाक्यांश है जिसे उपयोगकर्ता खोज बार में दर्ज करता है। विशेष ("", ~ ) और गणितीय प्रतीकों (*, +, ?) का उपयोग विभिन्न प्रश्नों को बनाने के लिए किया जाता है।

सूचना खोज योजना सरल है. उपयोगकर्ता एक प्रमुख वाक्यांश टाइप करता है और खोज को सक्रिय करता है, जिससे तैयार किए गए अनुरोध के अनुसार दस्तावेजों का चयन प्राप्त होता है। दस्तावेज़ों की इस सूची को कुछ मानदंडों के अनुसार रैंक किया गया है ताकि सूची के शीर्ष पर वे दस्तावेज़ हों जो उपयोगकर्ता की क्वेरी से सबसे अधिक निकटता से मेल खाते हों। प्रत्येक खोज उपकरण खोज परिणामों के विश्लेषण और सूचकांक के निर्माण (वेब पृष्ठों के सूचकांक डेटाबेस को भरने) दोनों में दस्तावेजों की रैंकिंग के लिए विभिन्न मानदंडों का उपयोग करता है।

अधिकांश खोज उपकरण खोज के दो तरीके प्रदान करते हैं - सरल खोज (सरल खोज) और उन्नत खोज (उन्नत खोज) एक विशेष अनुरोध फ़ॉर्म का उपयोग करके और इसके बिना। आइए अंग्रेजी भाषा के खोज इंजन के उदाहरण पर दोनों प्रकार की खोज पर विचार करें।

उदाहरण के लिए, अल्टाविस्टा मनमाने प्रश्नों के लिए उपयोगी है, " सूचना प्रौद्योगिकी में ऑनलाइन डिग्री के बारे में कुछ”, जबकि Yahoo खोज उपकरण आपको विश्व समाचार, विनिमय दर की जानकारी या मौसम पूर्वानुमान प्राप्त करने की अनुमति देता है।

क्वेरी और उन्नत खोज तकनीकों को परिशोधित करने के मानदंडों में महारत हासिल करने से आप खोज की दक्षता में वृद्धि कर सकते हैं और आवश्यक जानकारी जल्दी से प्राप्त कर सकते हैं। सबसे पहले, आप प्रश्नों में तार्किक ऑपरेटरों (संचालन) या, और, पास, नहीं, गणितीय और विशेष प्रतीकों का उपयोग करके खोज दक्षता बढ़ा सकते हैं। प्रचालकों और/या प्रतीकों की सहायता से, उपयोगकर्ता क्वेरी के लिए सबसे उपयुक्त खोज परिणाम प्राप्त करने के लिए खोजशब्दों को वांछित क्रम में जोड़ता है। अंग्रेजी में अनुरोध प्रपत्र। तालिका 1 में दिखाया गया है।

तालिका नंबर एक

सरल अनुरोध	उन्नत क्वेरी	विस्तारित
		गणितीय का उपयोग करना
		पात्र
	इंटरनेट व्यापारी खाता और	इंटरनेट+ मर्चेंट+ खाता
व्यापारी खाता		इंटरनेट ~ मर्चेंट~ सरकार*
इंटरनेट व्यापारी खाता	सरकार के पास इंटरनेट व्यापारी*	इंटरनेट ~ मर्चेंट ~ गवर्नर
"व्यापारी खाता"	इंटरनेट व्यापारी शिक्षा	इंटरनेट ~ मर्चेंट~ (गवर्नर
"इंटरनेट व्यापारी खाता"

एक साधारण क्वेरी दस्तावेज़ों के कई लिंक देती है, क्योंकि सूची में अनुरोध पर दर्ज किए गए शब्दों में से एक या एक साधारण वाक्यांश (तालिका 1 देखें) वाले दस्तावेज़ शामिल हैं। और ऑपरेटर आपको यह निर्दिष्ट करने की अनुमति देता है कि सभी खोजशब्दों को दस्तावेज़ सामग्री में शामिल किया जाना चाहिए। हालाँकि, दस्तावेज़ों की संख्या अभी भी बड़ी हो सकती है और उनकी समीक्षा करने में लंबा समय लग सकता है। इसलिए, कुछ मामलों में निकट संदर्भ ऑपरेटर का उपयोग करना अधिक सुविधाजनक होता है, जो इंगित करता है कि शब्दों को दस्तावेज़ में पर्याप्त निकटता में स्थित होना चाहिए। नियर का उपयोग करने से पाए गए दस्तावेज़ों की संख्या बहुत कम हो जाती है। क्वेरी स्ट्रिंग में प्रतीक "*" की उपस्थिति का अर्थ है कि शब्द को उसके मास्क द्वारा खोजा जाएगा। उदाहरण के लिए, यदि हम क्वेरी स्ट्रिंग में "gov*" लिखते हैं, तो हमें "gov" से शुरू होने वाले शब्दों वाले दस्तावेज़ों की एक सूची मिलती है। ये शब्द सरकार, राज्यपाल आदि हो सकते हैं।

रूसी भाषा की जानकारी के लिए सबसे विकसित खोज सेवा यांडेक्स खोज सर्वर द्वारा प्रदान की जाती है।

यांडेक्स में, आप बस रूसी में एक वाक्यांश लिख सकते हैं जो यह बताता है कि आप क्या खोजना चाहते हैं, और सिस्टम आपके अनुरोध का विश्लेषण और प्रक्रिया करेगा, और फिर किसी दिए गए विषय से संबंधित हर चीज को खोजने का प्रयास करेगा।

आप विशेष ऑपरेटरों का उपयोग करके, एक स्ट्रिंग बना सकते हैं जो खोज इंजन को समझाती है कि आपकी रुचि की जानकारी के लिए आपकी आवश्यकताएं क्या होनी चाहिए। कुछ यांडेक्स क्वेरी भाषा ऑपरेटरों को यहां पाया जा सकता है: http://help.yandex.ru/search/?id=481939

आइए इंटरनेट पर सबसे लोकप्रिय सूचना खोज तकनीकों को देखें।

2.2 खोज इंजन

यह इस प्रकार के खोज उपकरण हैं जो सभी इंटरनेट उपयोगकर्ताओं के बीच सबसे प्रसिद्ध और लोकप्रिय हैं। हर कोई प्रसिद्ध वेब सर्च इंजन (सर्च इंजन) के नाम जानता है - यांडेक्स,

रामब्लर, एपोर्ट।

इस प्रकार के सर्च टूल का उपयोग करने के लिए, आपको इसमें जाना होगा और सर्च बार में वह कीवर्ड टाइप करना होगा जिसमें आप रुचि रखते हैं।

सबसे कुशल खोज के लिए, निम्नलिखित बातों पर पहले से ध्यान दें:

अनुरोध के विषय पर निर्णय लें. अंत में आप क्या ढूंढ रहे हैं?

भाषा, व्याकरण, विभिन्न गैर-वर्णमाला वर्णों के उपयोग, आकृति विज्ञान पर ध्यान दें . कीवर्ड को सही ढंग से तैयार करना और दर्ज करना भी महत्वपूर्ण है। प्रत्येक खोज इंजन का अनुरोध करने का अपना रूप होता है - सिद्धांत समान होता है, लेकिन उपयोग किए गए प्रतीक या ऑपरेटर भिन्न हो सकते हैं। आवश्यक अनुरोध प्रपत्र भी खोज इंजन सॉफ़्टवेयर की जटिलता और उनके द्वारा प्रदान की जाने वाली सेवाओं के आधार पर भिन्न होते हैं। एक तरह से या किसी अन्य, प्रत्येक खोज इंजन में एक अनुभाग होता है "मदद "("सहायता"), जहां सभी वाक्यविन्यास नियम, साथ ही खोज के लिए अनुशंसाएं और सुझाव, एक सुलभ तरीके से (खोज इंजन पृष्ठों का स्क्रीनशॉट) समझाया गया है।

विभिन्न खोज इंजनों की क्षमताओं का उपयोग करें . यदि आप इसे यांडेक्स पर नहीं ढूंढ पा रहे हैं, तो Google का प्रयास करें। उन्नत खोज सेवाओं का उपयोग करें।

कुछ शर्तों वाले दस्तावेज़ों को बाहर करने के लिए, "-" चिह्न का उपयोग करें ऐसे हर शब्द से पहले। उदाहरण के लिए, यदि आप हेमलेट के अपवाद के साथ शेक्सपियर के कार्यों के बारे में जानकारी चाहते हैं, तो फॉर्म में एक प्रश्न दर्ज करें: "शेक्सपियर-हेमलेट"। और यह सुनिश्चित करने के लिए कि कुछ लिंक खोज परिणामों में शामिल हैं, प्रतीक का उपयोग करें "+ ": विशेष रूप से कारों की बिक्री के बारे में लिंक - क्वेरी "बिक्री + कार"।

खोज परिणामों की सूची में प्रत्येक लिंक में एक स्निपेट होता है - मिले दस्तावेज़ से कई पंक्तियाँ, जिनमें आपके कीवर्ड होते हैं। लिंक पर क्लिक करने से पहले, अनुरोध के विषय के लिए स्निपेट की प्रासंगिकता का मूल्यांकन करें। किसी विशिष्ट साइट के लिंक पर क्लिक करने के बाद, मुख्य पृष्ठ के चारों ओर ध्यान से देखें। एक नियम के रूप में, पहला पृष्ठ यह समझने के लिए पर्याप्त है कि आप पते पर आए हैं या नहीं। यदि हाँ, तो चयनित साइट (साइट के अनुभागों में) पर आवश्यक जानकारी के लिए आगे की खोज करें, यदि नहीं, तो खोज परिणामों पर वापस जाएँ और अगला लिंक आज़माएँ।

याद रखें कि खोज इंजन स्वतंत्र जानकारी (स्वयं के बारे में स्पष्टीकरण को छोड़कर) का उत्पादन नहीं करते हैं। खोज प्रणाली

– यह सूचना के स्वामी (वेबसाइट) और आपके बीच केवल एक मध्यस्थ है। डेटाबेस लगातार अपडेट किए जाते हैं, उनमें नए पते दर्ज किए जाते हैं, लेकिन दुनिया में वास्तव में मौजूद जानकारी का बैकलॉग अभी भी बना हुआ है। यह सिर्फ इसलिए है क्योंकि सर्च इंजन प्रकाश की गति से काम नहीं करते हैं।

खोज इंजन सबसे बड़े और सबसे मूल्यवान हैं, लेकिन वेब पर सूचना के एकमात्र स्रोतों से बहुत दूर हैं।

साझा करना: