5.1 मानचित्र केवल नौकरी
यह विभिन्न तकनीकों का वर्णन करने का समय है जो आपको व्यावहारिक समस्याओं को हल करने के लिए MapReduce का प्रभावी ढंग से उपयोग करने की अनुमति देती हैं, साथ ही Hadoop की कुछ विशेषताओं को दिखाती हैं जो विकास को आसान बना सकती हैं या किसी क्लस्टर पर MapReduce कार्य के निष्पादन को तेज कर सकती हैं।
जैसा कि हमें याद है, MapReduce में मैप, शफल और कम करने के चरण होते हैं। एक नियम के रूप में, फेरबदल चरण व्यावहारिक कार्यों में सबसे कठिन हो जाता है, क्योंकि इस स्तर पर डेटा को क्रमबद्ध किया जाता है। वास्तव में, ऐसे कई कार्य हैं जिनमें केवल मानचित्र चरण से ही छुटकारा पाया जा सकता है। यहाँ ऐसे कार्यों के उदाहरण दिए गए हैं:
- डेटा फ़िल्टरिंग (उदाहरण के लिए, वेब सर्वर लॉग में "आईपी पते 123.123.123.123 से सभी रिकॉर्ड ढूंढें");
- डेटा परिवर्तन ("सीएसवी-लॉग में कॉलम हटाएं");
- बाहरी स्रोत से डेटा लोड और अनलोड करना ("लॉग से डेटाबेस में सभी रिकॉर्ड डालें")।
इस तरह के कार्यों को मैप-ओनली का उपयोग करके हल किया जाता है। Hadoop में मैप-ओनली टास्क बनाते समय, आपको रिड्यूसर की शून्य संख्या निर्दिष्ट करने की आवश्यकता होती है:

हडूप पर मानचित्र-केवल कार्य विन्यास का एक उदाहरण:
देशी इंटरफ़ेस | Hadoop स्ट्रीमिंग इंटरफ़ेस |
---|---|
जॉब को कॉन्फ़िगर करते समय रेड्यूसर की शून्य संख्या निर्दिष्ट करें:
|
हम एक रेड्यूसर निर्दिष्ट नहीं करते हैं और रेड्यूसर की शून्य संख्या निर्दिष्ट करते हैं। उदाहरण:
|
मानचित्र केवल नौकरियां वास्तव में बहुत उपयोगी हो सकती हैं। उदाहरण के लिए, Facetz.DCA प्लेटफॉर्म में, उपयोगकर्ताओं के व्यवहार द्वारा उनकी विशेषताओं की पहचान करने के लिए, यह केवल एक बड़े मानचित्र का उपयोग किया जाता है, जिसमें से प्रत्येक मैपर उपयोगकर्ता को इनपुट के रूप में लेता है और आउटपुट के रूप में उसकी विशेषताओं को वापस करता है।
5.2 मिलाना
जैसा कि मैंने पहले ही लिखा था, आमतौर पर मैप-कम करने का कार्य करते समय सबसे कठिन चरण फेरबदल चरण होता है। ऐसा इसलिए होता है क्योंकि इंटरमीडिएट परिणाम (मैपर का आउटपुट) डिस्क पर लिखे जाते हैं, सॉर्ट किए जाते हैं और नेटवर्क पर प्रसारित होते हैं। हालाँकि, ऐसे कार्य हैं जिनमें ऐसा व्यवहार बहुत उचित नहीं लगता है। उदाहरण के लिए, दस्तावेज़ों में शब्दों की गिनती के एक ही कार्य में, आप कार्य के एक मानचित्र-कम नोड पर कई मैपर्स के आउटपुट के परिणामों को पूर्व-एकत्रित कर सकते हैं, और प्रत्येक मशीन के लिए पहले से ही सम्मिलित मानों को रेड्यूसर को पास कर सकते हैं। .

हडूप में, इसके लिए, आप एक संयोजन फ़ंक्शन को परिभाषित कर सकते हैं जो मैपर्स के भाग के आउटपुट को प्रोसेस करेगा। संयोजन फ़ंक्शन कम करने के समान है - यह कुछ मैपर्स के आउटपुट को इनपुट के रूप में लेता है और इन मैपर्स के लिए एक समग्र परिणाम उत्पन्न करता है, इसलिए रेड्यूसर को अक्सर कॉम्बिनर के रूप में भी उपयोग किया जाता है। कम करने से एक महत्वपूर्ण अंतर यह है कि एक कुंजी के अनुरूप सभी मान संयोजन समारोह में नहीं आते हैं ।
इसके अलावा, हडूप इस बात की गारंटी नहीं देता है कि मैपर के आउटपुट के लिए कंबाइन फ़ंक्शन को बिल्कुल भी निष्पादित किया जाएगा। इसलिए, संयोजन समारोह हमेशा लागू नहीं होता है, उदाहरण के लिए, कुंजी द्वारा औसत मूल्य खोजने के मामले में। फिर भी, उन कार्यों में जहां संयोजन कार्य लागू होता है, इसका उपयोग MapReduce कार्य की गति में उल्लेखनीय वृद्धि प्राप्त करने की अनुमति देता है।
हडूप पर कंबाइनर का उपयोग करना:
देशी इंटरफ़ेस | हडूप स्ट्रीमिंग |
---|---|
जॉब-ए को कॉन्फ़िगर करते समय, क्लास-कॉम्बिनेर निर्दिष्ट करें। एक नियम के रूप में, यह रेड्यूसर जैसा ही है:
|
कमांड लाइन विकल्पों में -combiner कमांड निर्दिष्ट करें। आमतौर पर, यह कमांड रिड्यूसर कमांड के समान होता है। उदाहरण:
|
5.3 MapReduce टास्क चेन
ऐसी स्थितियाँ होती हैं जब किसी समस्या को हल करने के लिए एक MapReduce पर्याप्त नहीं होता है। उदाहरण के लिए, थोड़ा संशोधित WordCount कार्य पर विचार करें: पाठ दस्तावेज़ों का एक सेट है, आपको यह गिनने की आवश्यकता है कि सेट में 1 से 1000 बार कितने शब्द आए, 1001 से 2000 तक कितने शब्द, 2001 से 3000 तक कितने शब्द, और इसी तरह। समाधान के लिए, हमें 2 MapReduce नौकरियों की आवश्यकता है:
- संशोधित शब्द गणना, जो प्रत्येक शब्द के लिए गणना करेगी कि यह किस अंतराल में गिर गया;
- एक MapReduce जो यह गिनता है कि पहले MapReduce के आउटपुट में प्रत्येक अंतराल कितनी बार आया था।
छद्म कोड समाधान:
|
|
|
|
Hadoop पर MapReduce कार्यों के अनुक्रम को निष्पादित करने के लिए, यह केवल उस फ़ोल्डर को निर्दिष्ट करने के लिए पर्याप्त है जो दूसरे कार्य के इनपुट के रूप में पहले के लिए आउटपुट के रूप में निर्दिष्ट किया गया था और उन्हें बदले में चलाएं।
व्यवहार में, MapReduce कार्यों की श्रृंखला काफी जटिल क्रम हो सकती है जिसमें MapReduce कार्यों को क्रमिक रूप से और एक दूसरे के समानांतर दोनों में जोड़ा जा सकता है। ऐसी कार्य निष्पादन योजनाओं के प्रबंधन को आसान बनाने के लिए, oozie और luigi जैसे अलग-अलग उपकरण हैं, जिनकी चर्चा इस श्रृंखला के एक अलग लेख में की जाएगी।

5.4 वितरित कैश
हडूप में एक महत्वपूर्ण तंत्र वितरित कैश है। वितरित कैश आपको उस वातावरण में फ़ाइलें (जैसे पाठ फ़ाइलें, संग्रह, जार फ़ाइलें) जोड़ने की अनुमति देता है जहाँ MapReduce कार्य चल रहा है।
आप एचडीएफएस, स्थानीय फाइलों (मशीन से स्थानीय जहां से कार्य लॉन्च किया गया है) पर संग्रहीत फ़ाइलों को जोड़ सकते हैं। मैंने पहले ही स्पष्ट रूप से दिखाया है कि -file विकल्प के माध्यम से mapper.py और reducer.py फ़ाइलों को जोड़कर हडूप स्ट्रीमिंग के साथ वितरित कैश का उपयोग कैसे करें। वास्तव में, आप न केवल mapper.py और reducer.py जोड़ सकते हैं, बल्कि सामान्य रूप से मनमानी फाइलें भी जोड़ सकते हैं, और फिर उनका उपयोग इस तरह कर सकते हैं जैसे कि वे एक स्थानीय फ़ोल्डर में हों।
वितरित कैश का उपयोग करना:
देशी एपीआई |
---|
|
हडूप स्ट्रीमिंग |
---|
# हम उन फाइलों को सूचीबद्ध करते हैं जिन्हें -फाइल्स पैरामीटर में वितरित कैश में जोड़ने की आवश्यकता होती है। --files विकल्प को अन्य विकल्पों से पहले आना चाहिए।
उपयोग उदाहरण:
|
5.5 ज्वाइन कम करें
जो लोग रिलेशनल डेटाबेस के साथ काम करने के आदी हैं, वे अक्सर बहुत सुविधाजनक जॉइन ऑपरेशन का उपयोग करते हैं, जो उन्हें कुछ कुंजियों के अनुसार कुछ तालिकाओं की सामग्री को संयुक्त रूप से संसाधित करने की अनुमति देता है। बड़े डेटा के साथ काम करते समय भी कभी-कभी यह समस्या उत्पन्न हो जाती है। निम्नलिखित उदाहरण पर विचार करें:
दो वेब सर्वर के लॉग हैं, प्रत्येक लॉग इस तरह दिखता है:
t\t
लॉग स्निपेट उदाहरण:
1446792139
178.78.82.1
/sphingosine/unhurrying.css
1446792139
126.31.163.222
/accentually.js
1446792139
154.164.149.83
/pyroacid/unkemptly.jpg
1446792139
202.27.13.181
/Chawia.js
1446792139
67.123.248.174
/morphographical/dismain.css
1446792139
226.74.123.135
/phanerite.php
1446792139
157.109.106.104
/bisonant.css
प्रत्येक आईपी पते के लिए यह गणना करना आवश्यक है कि वह किन 2 सर्वरों पर अधिक बार गया। परिणाम रूप में होना चाहिए:
\t
परिणाम के एक भाग का एक उदाहरण:
178.78.82.1
first
126.31.163.222
second
154.164.149.83
second
226.74.123.135
first
दुर्भाग्य से, संबंधपरक डेटाबेस के विपरीत, सामान्य तौर पर, कुंजी द्वारा दो लॉग (इस मामले में, आईपी पते द्वारा) में शामिल होना एक भारी ऑपरेशन है और इसे 3 MapReduce और Reduce Join पैटर्न का उपयोग करके हल किया जाता है:

ReduceJoin इस तरह काम करता है:
1) प्रत्येक इनपुट लॉग के लिए, एक अलग MapReduce (केवल मानचित्र) लॉन्च किया जाता है, इनपुट डेटा को निम्न रूप में परिवर्तित करता है:
key -> (type, value
जहाँ कुंजी तालिकाओं में शामिल होने की कुंजी है, प्रकार तालिका का प्रकार है (हमारे मामले में पहला या दूसरा), और मान कुंजी से जुड़ा कोई अतिरिक्त डेटा है।
2) दोनों MapReduces के आउटपुट को 3rd MapReduce के इनपुट में फीड किया जाता है, जो वास्तव में यूनियन करता है। इस MapReduce में एक खाली मैपर है जो केवल इनपुट को कॉपी करता है। अगला, फेरबदल डेटा को कुंजियों में विघटित करता है और इसे इनपुट के रूप में रिड्यूसर को फीड करता है:
key -> [(type, value)]
यह महत्वपूर्ण है कि इस समय रिड्यूसर दोनों लॉग से रिकॉर्ड प्राप्त करता है, और साथ ही, टाइप फ़ील्ड द्वारा यह पहचानना संभव है कि दो लॉग में से कौन सा मान एक विशेष मान से आया है। इसलिए मूल समस्या को हल करने के लिए पर्याप्त डेटा है। हमारे मामले में, रिड्यूसर को केवल प्रत्येक रिकॉर्ड कुंजी के लिए गणना करनी होगी कि किस प्रकार का अधिक सामना करना पड़ा है और इस प्रकार का आउटपुट।
5.6 मैपजॉइन
रिड्यूसजॉइन पैटर्न कुंजी द्वारा दो लॉग में शामिल होने के सामान्य मामले का वर्णन करता है। हालाँकि, एक विशेष मामला है जिसमें कार्य को काफी सरल और त्वरित किया जा सकता है। यह वह स्थिति है जिसमें एक लॉग दूसरे की तुलना में काफी छोटा होता है। निम्नलिखित समस्या पर विचार करें:
2 लॉग हैं। पहले लॉग में वेब सर्वर लॉग होता है (पिछले कार्य के समान), दूसरी फ़ाइल (आकार में 100kb) में URL-> थीम मैच होता है। उदाहरण दूसरी फ़ाइल:
/toyota.php
auto
/football/spartak.html
sport
/cars
auto
/finances/money
business
प्रत्येक आईपी पते के लिए, यह गणना करना आवश्यक है कि इस आईपी पते से किस श्रेणी के पृष्ठ सबसे अधिक बार लोड किए गए थे।
इस स्थिति में, हमें URL द्वारा 2 लॉग्स में शामिल होने की भी आवश्यकता है। हालाँकि, इस मामले में, हमें 3 MapReduce चलाने की आवश्यकता नहीं है, क्योंकि दूसरा लॉग पूरी तरह से मेमोरी में फिट हो जाएगा। पहले MapReduce का उपयोग करके समस्या को हल करने के लिए, हम दूसरे लॉग को वितरित कैश में लोड कर सकते हैं, और जब मैपर को इनिशियलाइज़ किया जाता है, तो बस इसे मेमोरी में पढ़ें, इसे -> टॉपिक डिक्शनरी में डालें।
इसके अलावा, समस्या का समाधान इस प्रकार है:
नक्शा:
# find the subject of each of the pages of the first log
input_line -> [ip, topic]
कम करना:
Ip -> [topics] -> [ip, most_popular_topic]
कम एक आईपी प्राप्त करता है और इनपुट के रूप में सभी विषयों की एक सूची प्राप्त करता है, यह केवल गणना करता है कि कौन से विषयों को अक्सर सामना किया गया था। इस प्रकार, कार्य को पहले MapReduce का उपयोग करके हल किया जाता है, और वास्तविक जुड़ाव आम तौर पर मानचित्र के अंदर होता है (इसलिए, यदि कुंजी द्वारा अतिरिक्त एकत्रीकरण की आवश्यकता नहीं थी, तो MapOnly कार्य को समाप्त किया जा सकता है):

GO TO FULL VERSION