Machine Learning – 3 – PAC Method

Probably Approximately Correct (PAC Method)

ஒரு கணிப்பான் மூலம் நிகழ்த்தப்படும் கணிப்பு எவ்வளவு தூரம் சரியானதாக இருக்கும், அதனை எவ்வளவு தூரம் நம்பலாம் என்பது போன்ற விஷயங்கள் எல்லாம் இந்த method-ல் கணக்கிடப்படுகிறது. முதலில் ஒரு கணிப்பானின் கணிப்பு probably approximately correct -ஆக அமைவதற்கு அவற்றில் என்னென்ன பண்புகளெல்லாம் இருக்க வேண்டும் என்பதை ஒருசில வரையறைகள் கொண்டு சோதிக்கிறது. அதாவது over-fitting இல்லாமல் இருக்கிறதா, inductive bias பெற்று விளங்குகிறதா,i.i.d  முறையில் பயிற்சித் தரவுகள் அளிக்கப்பட்டுள்ளதா,அதன் sample complexity எவ்வளவு இருந்தால், கணிப்பு ஓரளவுக்கு சரியாக அமையும் என்பது போன்ற நோக்கில் எல்லாம் ஆராயப்படுகிறது. பின்னர் accuracy மற்றும் confidence parameters மூலம் நமது கணிப்பு எவ்வளவு தூரம் துல்லியமானது என்பதைக் கணக்கிடுகிறது. இம்முறையில் realizability assumption எனும் அனுமானம் காணப்படும். ஆனால் இது நாம் அடுத்து காணப்போகும் Agnostic PAC Model-ல் நீங்கிவிடும். இங்கு குறிப்பிட்டுள்ள ஒவ்வொன்றின் விளக்கத்தையும் கீழே காணலாம்.

Overfitting: ஒருசில மாதிரித் தரவுகளைக் கொடுத்து learner-ஐப் பழக்காமல், ஒட்டுமொத்தமாக அனைத்துத் தரவுகளையும் கொடுத்துப் பழக்கினால் overfitting என்ற அபாயம் ஏற்பட வாய்ப்பு உள்ளது. இவ்வாறு அளவுக்கு அதிகமாகத் தரவுகளைப் பெற்றுக்கொள்ளும் learner-ஆனது கற்றுக்கொள்ள முயற்சி செய்யாமல், சுலபமாக மனப்பாடம் செய்துவிடுகிறது. சோதனையின்போதும், நாம் எதிர்பார்க்கின்ற மதிப்பினைத் துல்லியமாக அளிக்கின்றது. இதில் உள்ள risk-ன் மதிப்பு எப்போதும் குறைவே. அதனாலேயே இதை ஒரு சரியான கணிப்பாக எடுத்துக் கொள்ள முடியாது. ஏனெனில் பயிற்சியின் போது அளிக்கப்படாத புதிய தரவுகளுக்கு இதனால் முறையாக கணிப்பினை நிகழ்த்த முடியாது. ஆகவே இந்த Overfittingஐ இல்லாமல் செய்வதற்காக உள்ளதே inductive bias ஆகும்.

Inductive bias: hypothesis class என்பது மாதிரித் தரவுகளில் உள்ள ஒவ்வொன்றையும் எந்தெந்த label-வுடன் முறைப்படுத்திக் கற்க வேண்டும் என்ற தொடர்பினை விளக்குகிறது. இதுவே Inductive bias ஆகும். biased என்றால் ஒன்றினைச் சார்ந்திருப்பது என்று பொருள். இம்முறையில் learner-ஆனது, hypothesis class-ல் கூறப்படுகின்ற தொடர்புகளின் அடிப்படையில், தரவுகளைப் பற்றிய அறிவை வளர்த்துக்கொள்கிறது. அவ்வாறு பெற்றுக்கொண்ட அறிவினடிப்படையில்  கணிப்பினை நிகழ்த்துவதே inductive bias என்றழைக்கப்படுகிறது. இதுவே சரியான முறையும் கூட!

Hypothesis Class: ஒரு learner-inductive bias-ஆக இருக்குமாறு அமைக்க உதவுவது hypothesis class ஆகும். இதனை finite & infinite என்று இரண்டு வகையாகப் பிரிக்கலாம். Hypothesis என்பதை தமிழில் கருதுகோள் எனச் சொல்லலாம். என்னென்ன கணிப்புகளின் கீழ் உள்ளீடுகள் இருக்கும் எனும் வரையறையைக் கொடுத்து, அதன்கீழ் கணிக்கச் சொல்லுவது finite hypothesis class. உதாரணத்துக்கு youtube-ல் login செய்யும் ஒருவர் காலையில் பக்திப் பாடலும், மலையில் இளையராஜா பாடலும் தொடர்ச்சியாக கேட்டுக் கொண்டிருக்கிறார் எனில், அவருக்கான hypothesis class பக்திப் பாடல் மற்றும் இளையராஜா பாடல் எனும் இரண்டு வகையின் கீழ் அமையும். இதனை finite hypothesis class-க்கு உதாரணமாகச் சொல்லலாம். ஆனால் மற்றொருவரோ எந்த வகையின் கீழ் அவருடைய ரசனை இருக்கும் என வரையறுக்கவே முடியாத அளவுக்கு, காதல், பக்தி, நகைச்சுவை, சண்டை, நடனம், குழந்தைப் பாடல்கள் என பல்வேறு வகையிலிருந்து மாற்றி மாற்றிப் பார்க்கிறார்.  எனவே, அவருக்கான hypothesis class-ல் இவ்வளவு வகைகள் தான் இருக்கும் என வரையறுக்கவே முடியாத படி நீண்டு கொண்டே செல்லும். இதையே infinite hypothesis class-க்கு  உதாரணமாகச் சொல்லலாம்.

Sample complexity : மாதிரித் தரவுகளின் எண்ணிக்கை மிகவும் குறைந்து இருந்தாலோ அல்லது அளவுக்கு அதிகமாக இருந்தாலோ கணிப்பு சரியாக நடைபெறாது. எனவே ஒரு கணிப்பானின் வெற்றியானது அதற்கு மாதிரியாக கொடுக்கப்படுகின்ற தரவுகளின் எண்ணிக்கையைப் பொறுத்தே அமைகிறது. தோராயமாக எவ்வளவு மாதிரித் தரவுகள் கொடுத்தால், அதனுடைய கணிப்பு ஓரளவுக்கு சரியாக இருக்கும் எனக் கூறுவதே sample complexity ஆகும்.
S similarity D to the power of m என்பதில் m –ஆனது மாதிரியாக எடுக்கப்படும் தரவுகளின் எண்ணிக்கை ஆகும்.  அந்த எண்ணிக்கையைக் கணக்கிட உதவும் கிளைத் தேற்றம் பின்வருமாறு.

இதற்கு அளிக்கப்படும் மாதிரித் தரவுகளானது i.i.d எனும் அனுமானத்தின் வழியே நடக்கிறது. i.i.d என்றால் independently identically distributed என்று பொருள். ஒன்றோடொன்று சார்பற்ற தனித்தனியான தரவு மாதிரிகளை எடுத்தனுப்பி learner-க்குக் கற்பிப்பதையே இது வலியுறுத்துகிறது.

Realilzability assumption: நாம் ஏற்கனவே கண்ட உதாரணத்தில், புத்தகங்களின் பக்கங்கள் அதிகரித்தால் அதனுடைய விலையும் அதிகரிக்கும் எனும் அனுமானத்தினை நமது algorithm வளர்த்துக் கொள்கிறது. இதுவே realizability assumption எனப்படும். ஆனால் இந்த அனுமானம் எல்லா வகையான கணிப்புக்கும் பொருந்தாது. உதாரணத்துக்கு ஒரு நாணயத்தை சுண்டி விட்டால், தலை விழுமா பூ விழுமா என்பதற்கு எந்த ஒரு அனுமானமும் செய்ய முடியாது. இதுபோன்ற நிலையற்ற தன்மையைக் குறிக்கும் கணிப்புகளைப் பற்றி Agnostic PAC model-ல் காணலாம்.

Accuracy parameter: ஒரு predictor/classifier-ன் மதிப்பு எவ்வளவு தூரம் துல்லியமாக இருக்கும் என்பதைக் குறிக்க எனும் குறியீடு பயன்படுகிறது. எனவேR(h)> என்பது ஒரு கணிப்பானின் தோல்வியாகவும், R(h)<= என்பது தோராயமாக ஒரு நல்ல கணிப்பானாகவும் எடுத்துக் கொள்ளப்படுகிறது

Confidence parameter: இது delta மதிப்பின் அடிப்படையில் குறிக்கப்படுகிறது.

இதில் நாம் எதிர்பார்ப்பதும், கணிப்பான் எடுத்துக்கூறுவதும் சரியாக இருப்பதற்கான நிகழ்தகவு 1 எனவும், தவறாக அமைவதற்கான நிகழ்தகவு 0 எனவும் கொள்ளப்படுகிறது. இதன் அடிப்படையில் பார்த்தால் 1 என்பது இரண்டும் சமமாக அமைவதற்கான நிகழ்தகவு எனக் கொண்டால், 1-δ என்பது உண்மையான கணிப்பினை எடுத்துக்கூறப் போதுமானதாக இல்லாமல் அமைவதற்கான நிகழ்தகவு ஆகும். இதுவே இத்தகைய மாதிரிகளை எவ்வளவு தூரம் நம்பலாம் என்பதைக் குறிக்கும் confidence parameter (1-δ ) ஆகும்.

அடுத்ததாக இதுவரை நாம் கற்றுக்கொண்ட விஷயங்களை வைத்து simple linear regression-ஐ உருவாக்குவது எப்படி என்று பார்க்கலாம்.

%d bloggers like this: