Hadoop – அறிமுகம் – பகுதி 1

நித்யா February 11, 2018 3 Comments

HADOOP வரலாறு

Hadoop என்பது Apache நிறுவனம் வழங்குகின்ற திறந்த மூல மென்பொருள் கருவி ஆகும். இதனை Doug Cutting என்பவர் உருவாக்கினார். இது பெரிய தரவில் கூறப்படுகின்ற பல்வேறு வேலைகளையும் குறைந்த செலவில் திறம்பட செய்வதற்காக உருவாக்கப்பட்ட பல்வேறு மென்பொருள்களின் கூட்டமைப்பு ஆகும். Hadoop உருவாக்கத்திற்கு முன்னர் Doug Cutting என்பவர் ‘Apache Lucene’ எனும் கருவியை உருவாக்கியிருந்தார். இக்கருவியைப் பற்றி நாம் ELK Stack-ல் ஏற்கனவே பார்த்துள்ளோம். வாக்கியங்கள்/வார்த்தைகளின் அடிப்படையில் துரிதமாகத் தேடல்களை நிகழ்த்துவதற்கு ஏற்ற வகையில் முதன்முதலில் வடிவமைக்கப்பட்டதே Apache’s Lucene எனும் இயந்திரம் ஆகும். அதற்கும் முன்னர் Apache Nutch எனும் ஒரு சிறிய அளவிலான கருவி இவ்வேலைக்காகப் பயன்பட்டது. அதாவது 1990 – 2000 ஆண்டுகளில் வலைத்தலங்களில் காணப்படும் தரவுகளின் எண்ணிக்கை மில்லியன், பில்லியன் என உயர ஆரம்பித்தபோது, நாம் தேடும் விவரங்களை விரைவாகப் பெறுவது என்பது சற்று கடினமாகவும், நேர விரயம் தரக்கூடியதாகவும் இருந்தது. இப்பிரச்சனைகளை சமாளிப்பதற்காக Doug Cutting மற்றும் Mike Cafarella ஆகியோர் இணைந்து Nutch எனப்படும் ஒரு web crawler-ஐ உருவாக்கினர். இது வலைத்தளப்பக்கங்களை பதிவிறக்கம் செய்து தரவுகளை சேமித்துக்கொண்டே வரும் வல்லமை மிக்கது. பின்னர் இத்தகைய அதிக அளவிலான தரவுகளை முறையாகப் பிரித்து, சேமித்து, துரிதமாக எடுத்து வெளிப்படுத்துவதற்காக முதன்முதலில் உருவாக்கப்பட்ட ஒரு தேடுபொறிதான் Apache Lucene ஆகும். ஆனால் இத்தகைய Nutch, Lucene ஆகியவற்றின் செயல் திறன்களும் ஒரு குறிப்பிட்ட அளவுக்கே இருந்தன. இவற்றால் அதிக அளவிலான தகவல்களைக் கையாள முடியவில்லை. இந்நிலையில்தான் 2004-ஆம் ஆண்டு Google நிறுவனம் ‘Google Distributed Filesystem (GFS)’ எனும் கட்டமைப்பினை உருவாக்கி அது பற்றிய ஆய்வு அறிக்கைகளை வெளியிட்டது. அதனைத் தொடர்ந்து 2005-ம் ஆண்டு Mapreduce- ஐ உருவாக்கி அதன் ஆய்வு அறிக்கைகளை வெளியிட்டது. இவ்விரண்டும் மிக அதிக அளவிலான (terabyte கணக்கில்) தரவுகளை சேமித்தும், அவற்றை ஒருசில நொடிகளில் பகுத்தாய்வு செய்து வெளிப்படுத்தியும் திறம்பட செயல்பட்டு வந்தன.

இவைகளைப் பின்பற்றியே அதற்கு அடுத்தடுத்த ஆண்டுகளில் NDFS (Nutch Distributed File System) மற்றும் Nutch- க்கான ‘Mapreduce’ ஆகியவை google வெளியிட்ட ஆய்வு அறிக்கைகளின் அடிப்படையில் உருவாக்கப்பட்டன. 2006-ம் ஆண்டு ஆண்டில் தான் Doug Cutting, yahoo-நிறுவனத்தில் இணைந்து Nutch திட்டத்தை விரிவுபடுத்தும் வேலையைச் செய்தார். இதன்படி வலைத்தளப்பக்கங்களை அப்படியே பதிவிறக்கம் செய்து சேமித்துக்கொண்டே செல்லும் web crawler-க்கு Nutch என்றும். அவற்றை முறையாகப் பகுத்து பிரித்தாய்ந்து சேமிக்கும் முறைக்கு Hadoop என்றும் பெயரிடப்பட்டன. அதாவது Apache Lucene-ல் காணப்பட்ட ஒருசில சிரமங்களைக் களைந்து அதன்செயல்பாட்டுத் திறன்களையும் விரிவுபடுத்தி உருவாக்கப்பட்ட ஒன்றே Hadoop ஆகும். இதற்கு அவர் Hadoop-எனப் பெயரிட்டதற்கும், யானை பொம்மையை சின்னமாக வைத்ததற்கும் ஒரு தற்செயலான நிகழ்வே காரணமாக அமைந்தது. அவரது அன்புக்குரிய 2 வயது மகன் ஆசையோடு எடுத்து விளையாடும் மஞ்சள் நிற யானை பொம்மையின் பெயர்தான் இந்த Hadoop. இதைப்பற்றி அவர் கூறுகையில் “இப்பெயருக்கு எந்தஒரு அர்த்தமும் இல்லை. இது சொல்வதற்கு சுலபமாகவும், கவர்ச்சிகரமாகவும், வேறெங்கும் பயன்படுத்தாத வகையிலும் இருப்பதால் இப்பெயரையே வைத்துவிட்டேன். குழந்தைகள் எப்போதுமே இதுபோன்ற விஷயங்களை உருவாக்குவதில் சிறந்தவர்கள். Googol என்பதும் ஒரு குழந்தையின் உருவாக்கம்தானே” என்று குறிப்பிட்டுள்ளார்.

Hartonworks எனும் நிறுவனம் 2011-ம் ஆண்டு Rob Bearden என்பவரால் உருவாக்கப்பட்டது. இவர் இந்நிறுவனத்தை Yahoo-வுடன் இணைந்து, Hadoop உருவாக்கத்திற்கு உதவிய அதே மென்பொருளாளர் குழுவை வைத்து உருவாக்கினார். இந்நிறுவனம் பெரிய தரவு மேளாண்மைக்காக Apache-ன் hadoop கருவிகளில் ஒருசில முக்கியக் கருவிகளை இணைத்து ஒரு கட்டமைப்பாக நமக்கு வழங்குகிறது. இதன்மூலம் பயணர்கள் அவர்களுக்கு வேண்டிய கருவிகளை தனித்தனியாக சிரமப்பட்டு நிறுவத் தேவையில்லை. இந்தக் கட்டமைப்புக்குள் சென்று வேண்டிய கருவிகளைத் தேர்வு செய்தால் போதுமானது. அவை அனைத்தும் சுலபமாக எவ்விதப் பிரச்சனையும் இல்லாமல் நமது கணினியில் நிறுவப்பட்டுவிடும். இதுவே HDP (Hartonworks Data Platform) என்று அழைக்கப்படுகிறது. Ambari என்பது HDP-ஐ நிறுவி மேளாண்மை செய்யும் வேலையை பயணர்களுக்கு சுலபமாக்குவதற்காக உலாவி வழியே 8080-எனும் port-ல் இயங்குகின்ற ஒரு கருவி ஆகும்.

HADOOP கட்டமைப்பு

“Hadoop ஒரு தனிக்கருவி அல்ல; பல்வேறு சிறுசிறு கருவிகளின் கூட்டமைப்பே!” என்று ஏற்கனவே பார்த்தோம். இதன் மிக முக்கிய ஆங்கங்களாக HDFS மற்றும் MapReducer ஆகியவை விளங்குகின்றன. இவை முறையே தரவுகளை சேமித்தல் மற்றும் பகுத்தாய்தல் ஆகிய முக்கியப் பணிகளைச் செய்கின்றன. இவற்றுடன் சேர்த்து Pig, Hive, HBase, Phoenix, Spark, ZooKeeper, Flume, Sqoop, Oozie, மற்றும் Storm ஆகிய கருவிகளையும் Apache நிறுவனம் வழங்குகிறது. இவற்றை நமது தேவைக்கேற்ப Hadoop
கட்டமைப்பில் இணைத்தோ/நீக்கியோ பயன்படுத்திக்கொள்ளலாம். இந்தக் கூட்டமைப்பில் இடம் பெற்றுள்ள கருவிகளையும், அவை எந்தெந்த இடங்களில் பங்களிக்கின்றன என்பதையும் பின்வருமாறு காணலாம்.

1. தரவுகளை சேமித்தல் (Storage) : HDFS, HBase
2. சேமித்தவற்றை நெறிப்படுத்துதல் (Processing) : MapReduce, YARN
3. நெறிமுறைப்படுத்தப்பட்டவற்றை தேவைக்கேற்றபடி பெறுதல் (Access) : Pig, Hive, Mahout, Avro, Sqoop
4. தரவுகளின் மேளாண்மை (Management) : Oozie, Chukwa, Flume, Zoo Keeper

Hadoop கட்டமைப்பின் முதல் வெளியீட்டில்(v1) தரவுகளை சேமிப்பதற்கு hdfs-ம் அவற்றிலிருந்து தரவுகளை நெறிமுறைப்படுத்தி அடுத்த நிலைக்கு பக்குவப்படுத்துவதற்கு mapreduce-ம் பயன்படுத்தப்பட்டன. அவ்வாறே அதன் இரண்டாவது வெளியீட்டில்(v2) சேமிக்கும் வேலைக்கு hbase-ம் பதப்படுத்தும் வேலைக்கு yarn-ம் வெளிவந்தன. மற்ற கருவிகள் அனைத்திற்கும் பொதுவானவை. இவை ஒவ்வொன்றைப்பற்றியும் பின்வருமாறு காணலாம்.

HDFS
Hadoop Distributed File System என்பதுதான் அனைத்திற்கும் அடித்தளம். இது அதிக அளவிலான கோப்புகளை அணுகி சேமிக்க வல்லது. இதன் ஆற்றல் ஒரே ஒரு கணினியில் சேமிப்பதோடு நின்றுவிடாமல், கோப்புகளின் எண்ணிக்கை பெருகப் பெருக பல்வேறு கணினியில் அவற்றைப் பிரித்து சேமிக்க வல்லது. இவ்வாறு ஒன்று போன்ற தகவல்களைப் பிரித்து சேமித்துள்ள அனைத்துக் கணினிகளும் cluster முறையில் இணைக்கப்பட்டு அவற்றில் ஒரு கணினி server-ஆகவும் மற்றவை clients-ஆகவும் செயல்புரியத் துவங்கும். server-ல் உள்ளது master nodeஎனவும், clients-ல் உள்ளது data nodeஎனவும் அழைக்கப்படும். இதில்தான் தரவுகள் சென்று சேரும்.

Hbase
Hadoop database என்பதுதான் Hbase என்றழைக்கப்படுகிறது. இது NoSQL-ஐ அடிப்படையாக வைத்து உருவாக்கப்பட்டது. எனவே வடிவற்ற தகவல்களையும் சேமிக்கும் திறன் பெற்று விளங்குகிறது. ஆனால் கோப்பு முறையில் தரவுகள் சேமிக்கப்படுவதிலிருந்து இது வித்தியாசப்பட்டு விளங்குகிறது. ஒரு database-ல் சேமிப்பது போன்று இதில் தரவுகள் சேமிக்கப்படுகின்றன. எனவே திடீரென இடையில் தகவல்களைப் போடுவதோ எடுப்பதோ இங்கு சுலபமாகிறது.

MapReducer
சேமிக்கப்பட்ட தகவல்களை பதப்படுத்தி, பக்குவப்படுத்தி, அடுத்த நிலைக்கு வேண்டியவாறு நெறிமுறைப்படுத்தும் வேலையை Mapreducer செய்கிறது. இது Mapper மற்றும் Reducer எனும் இருவேறு algorithmns ஆகும். இது cluster முறையில் இணைக்கப்பட்டுள்ள அனைத்துக் கருவிகளிலிருந்தும் தகவல்களை அணுக வல்லது. இதனுடைய சிறப்பே அதன் வேகம்தான். அதாவது இத்தகைய வேலைகளைச் செய்வதற்கு rdbms 20 மணி நேரம் எடுத்துக்கொள்கின்றது என்றால், இக்கருவி அதனை 3மூன்றே நிமிடங்களில் முடித்துவிடும்.

YARN
இது ஒன்றோடொன்று இணைந்து செயல்படுகின்ற அனைத்து கணினிகளையும் மேளாண்மை செய்வதற்கும், அவற்றுக்குள் வேலைகளை ஒதுக்கீடு செய்து தொடர்ச்சியாக அவற்றைக் கண்காணிப்பதற்கும் பயன்படுகின்ற cluster மேளாண்மைக்கான ஒரு மென்பொருள் கருவியாகும். Yet another resource negotiator என்பது இதன் பொருள். இதுவும் mapreducer-ன் பணிகளையே செய்கிறது என்றாலும், புதுப்புது அணுகுமுறைகளில் தரவுகளைக் கையாண்டு அதன் பணிகளை இன்னும் சுலபமக்குகிறது. எனவே இதனை mapreducer-ன் இரண்டாம் தலைமுறை என்று கூறலாம்.

Pig
இது தரவுகளை எவ்விதம் மாற்ற வேண்டும், எவ்வாறு மாற்ற வேண்டும் (data transformation logic) என்பதை கணினிக்கு கூற உதவும் ஒரு நிரலாக்க மொழி ஆகும். SQL போன்று செயல்படக் கூடிய இந்த நிரலாக்க மொழி PigLatin என்றும், இதை வைத்து உருவாக்கப்படுபவை PigPrograms என்றும் அழைக்கப்படுகின்றன. இத்தகைய programs-தான் Mapreducer algorithmn-களில் எழுதப்பட்டு அவை hadoop cluster-ல் இயக்கப்படுகின்றன. Pig-ல் பயனர்கள் தாங்களே ஒரு function-ஐ வரையறுப்பதன்(User Defined Functions) மூலம் Jruby, Jython, Javaபோன்ற மற்ற நிரலாக்க மொழிகளுடனும் இணைந்து செயல்பட முடியும். இதன் விளைவாக நிகழ்காலப் பிரச்சனைகளை அலசுவதற்கு உதவும் விதமாக உருவாக்கப்பட்ட ஒருசில பயன்பாட்டியல்களில் Pig ஒரு கருவியாக சுலபமாக இணைந்து செயல்பட வல்லது.

Hive
இதுவும் SQL போன்று செயல்படக் கூடிய ஒரு மொழிதான். ஆனால் Pig என்பது ஒரு scripting மொழியெனில், Hive என்பது ஒரு query மொழி. Transformation Logic-ஐ எழுதுவதற்கு நிரலாக்க மொழியில் பழக்கமுள்ளவர்கள் Pig-ஐத் தேர்வு செய்வார்கள். ETL, Data Warehousing போன்ற துறைகளில் வேலைப்பார்த்து SQL-ல் அதிக பழக்கமுள்ளவர்கள் Hive-ஐத் தேர்வு செய்வார்கள். மற்றபடி இரண்டும் கிட்டத்தட்ட ஒரே வேலையைச் செய்வதற்குத்தான் பயன்படுகின்றன. தரவுகளை அணுகும் முறைகளில்தான் இவை வேறுபட்டு விளங்குகின்றன.

Mahout
இது இயந்திரவழிக் கற்றலுக்கு(machine learning) உதவும் algorithmns-ஐக் கொண்ட ஒரு நூலகம் ஆகும். இதுவே செயற்கை அறிவுத்திறனை (Artificial Intelligence) வளர்ப்பதற்கு அடித்தளமாக விளங்குகிறது. இப்பிரிவில் இயந்திரங்கள் என்ன செய்ய வேண்டும் என்பதனை வெளிப்படையாக நிரல்கள் மூலம் சொல்லத் தேவையில்லை. hdfs-ல் உள்ள அதிகப்படியான தரவுகளிலிருந்து தாமாகவே ஒரு pattern-ஐக் கண்டுபிடித்து, அடுத்த நிலைக்குச் செல்லும் திறன் பெற்றதாக இயந்திரங்களை மாற்றுவதற்கு இத்தகைய Mahout algorithmns உதவுகின்றன. இவற்றை நாம் Mapreducer-ல் பயன்படுத்தி hdfs-ல் உள்ள தரவுகளைக் கையாளச் செய்யலாம்.

Avro
Data Serialization-க்கு உதவுகின்ற ஒரு கோப்பு வகைதான் இந்த Avro. இதனையும் Doug Cutting என்பவர்தான் கண்டுபிடித்தார். ஒரு மாபெரும் தரவுத் தளத்திலுள்ள தரவுகளை எடுத்து jsonவடிவிலோ, binaryவடிவிலோ கொடுப்பதற்கு Data Serializationஎன்று பெயர். உதாரணத்துக்கு 1TB அளவுகொண்ட தரவுகளை text வடிவில் மாற்றினால் அது 2TB அளவுடையதாகவும், அதையே binary வடிவான avro வடிவில் மாற்றினால் அது 500MB அளவுடையதாகவும் மாறிவிடும். இவ்வாறு அதிக அளவு கொண்டவற்றை குறைந்த அளவில் மாற்றுவதற்குத் தான் zip, tarஆகியவை ஏற்கனவே உள்ளனவே என்று நீங்கள் கேட்கலாம். ஆனால் இவையெல்லாம் ஒரே கணினியில் வேண்டுமானால் சுலபமாக unzip, untar செய்து பயன்படுத்தப்படலாம். இதுவே ஒரு cluster என்று வரும்போது இத்தகைய வடிவங்கள் உதவாது. அதற்கென சிறப்பாக உருவாக்கப்பட்ட ஒரு கோப்புவடிவம் தான் இந்த Avro.

Avro வடிவில் சுருக்கப்பட்ட தரவுகளைப் பிரித்து பல்வேறு கணினிகளுக்கு அனுப்பும்போது, எந்த ஒரு தகவல் இழப்பும் ஏற்படாமல், அவைகள் பிரிக்கப்பட்ட அளவில் தனித்தனியே process செய்யப்படும். இதற்கென Compressible மற்றும் splittable எனும் இரு வடிவங்களில் binary கோப்புகள் உருவாக்கப்படுகின்றன. இதுவே இதன் சிறப்பம்சம் ஆகும். மேலும் இத்தகைய கோப்புகளை பல்வேறு வகை நிரலாக்க மொழிகளாலும் எடுத்துப் படிக்க முடியும். Avro schema-வானது json வடிவில் வரையறுக்கப்பட்டு முழுமையாக அதைச் சார்ந்தே செயல்படுகிறது. எனவே இது மொழி சார்பற்றதாகவும் schema-based ஆகவும் விளங்குகிறது.

Sqoop
தரவுத்தளம் / தரவுக்கிடங்கு (database / datastores) ஆகியவற்றிலிருந்து hadoop-க்கு மொத்தமாக (bulk-data processing)தரவுகளைப் பரிமாற்றம் செய்வதற்கு sqoop (SQL + Hadoop) பயன்படுகிறது. என்பதே sqoop ஆகும். ETL-க்குத் துணைபுரியும் வகையில் தரவுகள் அனைத்தையும் தரவுக்கிடங்கிலிருந்து(EDW) hadoop-க்கு மாற்றியும், அவ்வாறே hadoop-லிருந்து கிடங்கிற்கு மாற்றியும் குறைந்த செலவில் திறம்பட செயலாற்றுவதற்கு இது உதவுகிறது. மேலும் Teradata, Mysql, Oracle, Postgreபோன்ற அனைத்து வகையான தரவுத்தளத்துடனும் இது இணைந்து செயலாற்ற வல்லது.

Oozie
இது ஒரு workflow schedularஆகும். ஒன்றுடன் ஒன்று சார்பு கொண்ட தொடர்ச்சியான வேலைகளை அடுத்தடுத்து இயக்கப் பயன்படும். அதாவது தனிச்சையாக இயங்கக்கூடிய வேலைகளைக் கையாள்வது சுலபம். ஆனால் ஒரு வேலையின் வெளியீட்டை வைத்துத்தான் மற்றொன்று தன் செயல்பாட்டைத் துவங்கவேண்டுமெனில், அதற்கு இந்த Oozie பயன்படுகிறது. இதில் DAG (Directed Acyclical Graphs) எனும் வரைப்படத்தை உருவாக்கி, அதன் மூலம் பல்வேறு வேலைகளின் தொடர்புகளையும், அவை இயக்கப்பட வேண்டிய வரிசைமுறைகளையும் தெளிவாக விளக்கலாம். இதில் ஒரு node செயலுக்காகவும், மற்றொன்று செயல்களை தீர்மானிக்கவும் பயன்படுகிறது.
Action node என்பது செயலுக்கானது. Hdfs-ல் கோப்புகளை கொண்டு சேர்த்தல், mapreducer-ஐ இயக்குதல், pig/hive-ன் இயக்கங்களைத் துவக்குதல், பல்வேறு மூலங்களிலிருந்து தரவுகளை இறக்குதல் ஆகியன இதில் அடங்கும். Control node என்பது செயல்களை தீர்மானிக்கக் கூடியது. அதாவது ஒரு வேலையின் முடிவினை வைத்து அடுத்து எங்கு செல்ல வேண்டும், எந்த விதமான முடிவுக்கு எங்கிருந்து அடுத்தடுத்த வேலைகளைத் துவங்க வேண்டும் போன்ற அனைத்தையும் தீர்மானிக்கிறது. Start, End, Error ஆகிய nodes அனைத்தும் இந்த செயல்களைத் தீர்மானிக்கும் node வகையின் கீழ் வருகின்றன.

Chukwa
பொதுவாக hadoop என்பது hdfs-க்குள் ஏற்றப்பட்ட நிலையான தகவல்களை எடுத்து தனது வேலைகளைத் துவங்கும். ஆனால் பல்வேறு கணிணிகளிடமிருந்து தொடர்ச்சியாக வருகின்ற logs அனைத்தையும் hdfs-க்குள் செலுத்தி அதனை ஆய்வு செய்வதற்கு இத்தகைய chukwa, flumeபோன்ற கருவிகள் பயன்படுகின்றன. இதில் agent மற்றும் collector என்று இரண்டு அமைப்புகள் உள்ளன. Agent என்பது தரவுகளை எடுத்து அனுப்புவதற்காக ஒவ்வொரு கணினியிலும் செயல்படுவது. Collector என்பது agent அனுப்பிய தரவுகளைப் பெற்று hdfs-க்குள் அனுப்புவது.

Chukwa எனும் இக்கருவி collection, processingபோன்ற பல்வேறு நிலைகளைக் கொண்ட ஒரு குழாய் போன்ற செயல்பாட்டமைப்பினைப் பெற்றிருக்கும். இதன் ஒவ்வொரு நிலையும் பல்வேறு இடைமுகப்புகளால் இணைக்கப்பட்டிருக்கும். எனவே பிற்காலத்தில் புதுப்புது மாறுதல்கள் வந்தாலும்கூட, அதன் தற்போதைய நிலையில் எந்தஒரு குறைப்பாடும் இருக்காது. HICC (Hadoop Infrastructure Care Center) என்பதும் தகவல்களை வெளிப்படுத்துவதற்கு உதவுகின்ற வலைப்பக்கத்திற்கான ஒரு இடைமுகப்பு ஆகும். இதன்மூலம் தகவல்களை திறம்பட வெளிப்படுத்தி, கண்காணித்து அதனடிப்படையில் தேர்ந்த முடிவுகளை எடுக்கலாம்.

Flume
இதுவும் chukwa போன்றே batch processing-க்கு உதவுகின்ற, ஆனால் அதைவிட மிகக் குறைந்த நேரத்தில் logs-ஐ எடுத்து அனுப்பும் ஒரு கருவியாகும். Chukwa என்பது 5 நிமிடத்திற்கு ஒருமுறை batch முறைப்படி logs-ஐ எடுத்து அனுப்பினால், Flume-ஆனது சமகாலத்தில் வந்து கொண்டிருக்கின்ற logs-ஐ எடுத்து உடனுக்குடன் அனுப்புகிறது. இது logs விழ விழ அதனை எடுத்து உடனுக்குடன் Continuous Streaming முறைப்படி அனுப்பிக்கொண்டே இருக்கும்.

Zoo Keeper
இக்கருவி பிரிந்து இயங்குகின்ற பல்வேறு பயன்பாட்டியல்களை ஒருங்கிணைக்கப் பயன்படுகிறது. உதாரணத்துக்கு cluster-ல் இயங்கிக்கொண்டிருக்கும் 50-க்கும் மேற்பட்ட கணிணிகளில் ஏதேனும் ஒன்றில் கோளாறு ஏற்பட்டால் கூட அது எந்த node, எங்கிருந்து வருகிறது, மாற்றாக என்ன செய்வது போன்ற அனைத்து விதமான கோணங்களிலிருந்தும் யோசித்து, மாற்று செயல்பாடுகளுக்கான வேலையைத் துவங்கி அவை அனைத்தையும் பராமரிக்கும் வேலையை Zoo Keeper செய்கிறது.

Hadoop – அறிமுகம் – பகுதி 1

Like this:

Related

Hadoop – அறிமுகம் – பகுதி 1

பகிர்ந்து கொள்க

Like this:

Related