பெரும் தரவு (பிக் டேட்டா) பகுதி – 3 HADOOP

பெரும் தரவு (பிக் டேட்டா)

பகுதி – 3 HADOOP

அனைவருக்கும் வணக்கம். நாம் முந்தைய இரண்டு கட்டுரைகளில் பெரும் தரவு என்றால் என்ன அதன் பண்புகள், பெரும் தரவு கட்டமைப்பில்லுள்ள பல்வேறு கூறுகள், நவீன தரவு செயலாக்கம் மற்றும் மேலாண்மை எப்படி பாரம்பாிய தரவு செயலாக்கத்தில் இருந்து வேறுபடுகிறது என்று கண்டோம். அந்த வரிசையில் Hadoop என்றால் என்ன, அது எப்படி மிகப்பொிய பெரும் தரவு பிரச்சினையை சமாளிக்கிறது என்பதனை இந்த கட்டுரையில் விரிவாக காண்போம்.

Hadoop என்றால் என்ன…??

hadoop-coin

Hadoop என்பது ஒரு open source framework ஆகும். இதில் சேமிப்பு மற்றும் செயலாக்கம் என்னும் இரண்டு கூறுகள் உள்ளது. எடுத்துக்காட்டாக Hadoopபை ஓரு நாணயமாக நினைத்துக்கொள்ளுங்கள். அந்த நாணயத்தின் ஒரு பக்கம் சேமிப்பு மறு பக்கம் செயலாக்கமாகும். இதில் சேமிப்பிற்கான வேலையை Hadoop Distributed File System (HDFS) மற்றும் செயலாக்கத்தின் வேலையை MapReduce பாா்த்துக்கொள்கின்றன.

Hadoop = HDFS + MapReduce

Hadoop பின் வரலாறு :

முதலில் கூகுள் நிறுவனம் தான் Google’s distributed computing framework என்ற பெயாில் நவீன தரவு செயலாக்கம் மற்றும் மேலாண்மை கட்டமைப்பை உருவாக்கி பயன்படுத்தி வந்தது. அதில் Google File System (GFS) சேமிப்பிற்காவும் மற்றும் Google’s MapReduce பெரும் தரவுகளின் செயலாக்கத்தையும் பாா்த்துக்கொண்டிருந்தன. Google நிறுவனம் 2004ஆம் ஆண்டு அவற்றின் ஆராய்ச்சித்தாள்களை மக்கள் முன் சுதந்திரமாக வெளியிட்டது. அந்த ஆராய்ச்சித்தாள்களை மையமாக கொண்டு yahoo நிறுவனம் Hadoop திட்டத்தை open-source உரிமத்தில் அனைவருக்கும் பொதுவாக வெளியிட்டது. பிறகு அந்த திட்டம் yahoo விடமிருந்து Apache நிறுவனத்திற்கு கைமாறியது. அன்று முதல் இன்று வரை Apache நிறுவனத்திடம் தான் இத்திட்டம் இருந்து வருகிறது.

எப்படி Hadoop மிகப்பெரிய பெரும் தரவு பிரச்சினையை சமாளிக்கிறது :

1) Hadoop-ன் வடிவமைப்பு :

ஆம் Hadoop framework பல்வேறு எந்திரங்களில் இயங்கும் வண்ணம் வடிவமைக்கப்பட்டுள்ளது. எடுத்துக்காட்டாக நாம் சில தரவுகளை சேமிக்க வேண்டும் என்றால் அதனை முதலில் ஒற்றை சேமிப்பு வட்டில் சேமிக்க தொடங்குவோம். அந்த வட்டு சேமிக்க மிகாமல் போனால் அதே இயந்திரத்தில்லுள்ள அடுத்த சேமிப்பு வட்டிற்கு செல்வோம் மொத்த இயந்திரமும் மிகாமல் போனால் அடுத்த இயந்திரத்தில்லுள்ள சேமிப்பு வட்டிற்கு செல்வோம்.

hadoop-structure
இதே அடிப்படையை மையமாக கொண்டுத்தான் Hadoop உருவாக்கப்பட்டது.

2) Hadoop-ன் அளவீடு அவற்றின் கிடைமட்ட அளவிற்கு சமம்

நமக்கு சேமிப்பு மற்றும் செயலாக்கத்தின் திறனின் அளவை அதிகப்படுத்த வேண்டும் என்றால் அவற்றின் node யின் எண்ணிக்கையை அதிகப்படுத்த வேண்டும்.

3) Hadoop சேமிப்பு மற்றும் செயலாக்கம் இரண்டையும் அளிக்கிறது

நாம் முன்பே பாா்த்தது போல hadoop framework சேமிப்பு மற்றும் செயலாக்கம் என்னும் இரண்டு கூறுகளை கொண்டு உள்ளது. இதன் மூலம் நாம் எத்தனை பெரிய தரவாயினும் மிக எளிய முறையில் சேமித்து செயலாக்கம் செய்வதில் சிரமம் இல்லை.

இனி வரும் கட்டுரைகளில் HDFS மற்றும் MapReduce பற்றி விரிவாக காணலாம் நன்றி.

–-(தொடரும்)

 

Jagadeesan A S

lijugan92@gmail.com

1 Comment

  1. Raja Durai.R

    Good Start.Keep it up posting.Awaiting

    Reply

Leave a Reply

%d bloggers like this: