எளிய தமிழில் Computer Vision 21. படத் தரவுத்தளங்கள்

இயந்திரக் கற்றலுக்கு படத்தரவுகள் அவசியம்

இயந்திரக் கற்றல் முறையில் பல்லாயிரம் படங்களையும் அவற்றைக் கைமுறையாக வகைப்படுத்திய தரவுகளையும் உள்ளீடு செய்யவேண்டும் என்று முன்னர் பார்த்தோம். இம்மாதிரி படங்களும், தரவுகளும் நமக்கு எங்கிருந்து கிடைக்கும்?

எம்னிஸ்ட் (MNIST) 

எம்னிஸ்ட் (MNIST) - கையால் எழுதிய இலக்கங்கள்

எம்னிஸ்ட் (MNIST) – கையால் எழுதிய இலக்கங்கள்

இது கையால் எழுதப்பட்ட இலக்கங்களின் பெரிய தரவுத்தளமாகும். இது பொதுவாக பல்வேறு இயந்திரக் கற்றல் பட வகைப்படுத்தல் (classification) முறைகளில் பயிற்றுவிக்கவும், சோதனை செய்யவும் பயன்படுகிறது. 

சிஃபார் (CIFAR) 

இந்தத் தரவுத்தளத்தில் வானூர்திகள், சீருந்துகள், பறவைகள், பூனைகள், மான்கள், நாய்கள், தவளைகள், குதிரைகள், கப்பல்கள் மற்றும் சரக்குந்துகள் ஆக பத்து வெவ்வேறு வகைகளில் படங்கள் கிடைக்கும்.

நார்ப் (NORB)

இந்தத் தரவுத்தளத்தில் பல்வேறு ஒளி மற்றும் தோற்ற அமைவில் பொம்மைகளின் தொலைநோக்கிப் படங்கள் (binocular images) உள்ளன. முப்பரிமாணப் பொருட்களை அடையாளம் கண்டுகொள்ளும் சோதனைகளுக்காக இந்த தரவுத்தளம் வடிவமைக்கப்பட்டுள்ளது. இதில் விலங்குகள், மனித உருவங்கள், வானூர்திகள், சரக்குந்துகள் மற்றும் சீருந்துகள் வகைகளைச் சேர்ந்த ஐம்பது பொம்மைகளின் படங்கள் உள்ளன. 

லேபல்-மி (Labelme)

எம்ஐடி (MIT) பல்கலை இந்த குறிப்புரைகள் கூடிய படங்களின் தரவுத்தொகுப்பை வெளியிடுகிறது. இது பல்வேறு கோணங்கள், அளவுகள் மற்றும் நோக்குநிலைகளில் படங்களைக் கொண்டுள்ளது. பலகோண எல்லைப் பெட்டியை (polygon bounding box) வரைவதன் மூலம் ஒரு படத்திற்குள் பல பொருட்களைக் குறிக்க இது அனுமதிக்கிறது.

தெருவிலிருந்து தெரியும் வீட்டு எண்கள் (Street View House Numbers – SVHN)

கூகிள் சாலை வரைபடங்களில் நீங்கள் தெருவிலிருந்து தெரியும் வீடுகளின் படங்களைப் பார்த்திருக்கலாம். இந்தப் படங்களில் தெரியும் வீட்டு எண்களின் படங்கள் மட்டும் இந்தத் தரவில் கிடைக்கின்றன.

கோகோ (COCO – Common Objects in Context)

கோகோ என்பது ஒரு பெரிய அளவிலான பொருள் கண்டறிதல், பகுதிப் பிரிப்பு (segmentation) மற்றும் படவிளக்கம் கொடுத்தல் (captioning ) தரவுத்தொகுப்பு ஆகும். இதில் பொருட்களைச் சுற்றி எல்லைப் பெட்டிகளும் உள்ளன. 

படவலை (ImageNet) 

சொல்வலை (Wordnet) என்பது சொற்களுக்கு இடையிலான சொற்பொருள் உறவுகளைச் சித்தரிக்கும் தரவுத்தளம். சொல்வலையில் உள்ள ஒவ்வொரு பொருளுள்ள கருத்தும், பல சொற்கள் அல்லது சொற்றொடர்களால் விவரிக்கப்படலாம். இது “ஒத்த தொகுப்பு (synset)” என்று அழைக்கப்படுகிறது. சொல்வலையில் ஒரு லட்சத்துக்கும் மேற்பட்ட ஒத்த தொகுப்புகள் உள்ளன. இவற்றில் பெரும்பாலானவை பெயர்ச்சொற்கள். 

படவலை என்பது சொல்வலை வரிசைக்கு ஏற்ப ஒழுங்கமைக்கப்பட்ட ஒரு படத் தரவுத்தொகுப்பு. படவலையில் ஒவ்வொரு ஒத்த தொகுப்பையும் விளக்குவதற்கு சுமார் ஆயிரம் படங்கள் கிடைக்கும். பெரும்பாலான படங்களுக்கு குறிப்புரைகளும், எல்லைப் பெட்டிகளும் உண்டு.

நன்றி

  1. Handwritten Digit Recognition using Machine Learning by Himanshu Beniwal

இத்தொடரில் அடுத்த கட்டுரை: கற்றல் தரவு சேகரித்தல்

புதிய பணியாளருக்குப் பயிற்சி கொடுப்பது போலவேதான். தரவுத்தளங்களில் உள்ள படங்களை முடிந்தால் பயன்படுத்தலாம். தரவுகளை வகைப்படுத்தலும் குறியிடுதலும் (Classifying and labeling). படக் குறிப்புரைக் (annotation) கருவிகள்.

ashokramach@gmail.com

%d bloggers like this: