தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 18. சொல்வகைக் குறியீடும் குறியிட்ட உரைத்தொகுப்புகளும்

பேச்சறிதல், இயற்கை மொழி பாகுபடுத்தல், தகவல் பெறுதல் மற்றும் தகவல் பிரித்தெடுத்தல் போன்ற இயல்மொழி செயலிகளில் குறியீடுகள் முக்கிய பங்கை வகிக்கின்றன.

ஆங்கிலத்தில் பொதுவாக ஒன்பது சொல்வகைகள் உள்ளன என்று பள்ளியில் கற்பிக்கின்றனர்: பெயர்ச்சொல் (noun), வினைச்சொல் (verb), சுட்டிடைச் சொல் (article), பெயருரிச்சொல் அல்லது  பெயரடை (adjective), முன்னிடைச்சொல் (preposition), பதிலிடு பெயர் (pronoun), வினையுரிச்சொல் அல்லது வினையடை (adverb), இணையிடைச்சொல் (conjunction), மற்றும் வியப்பிடைச் சொல் (interjection). ஆங்கில சுட்டிடைச் சொல்லில் இரு உட்பிரிவினைகள் உண்டு. ‘a’, ‘an’ இரண்டும் வரையறாச் சுட்டிடைச் சொற்கள் (indefinite article). தமிழில் இவற்றுக்கு ஒப்பானவை ‘ஒரு’, ‘ஓர்’ எனலாம். ‘the’ வரையறு சுட்டிடைச் சொல் (definite article). தமிழில் வரையறு சுட்டிடைச் சொல் கிடையாது. ஆங்கிலத்தில் ‘with’, ‘at’, ‘from’, ‘into’ போன்றவை முன்னிடைச்சொற்கள். தமிழில் பின்னிடைச்சொற்கள்தான், ‘போது’, ‘கூடிய’, ‘முதல்’, ‘வரை’ போன்றவை.

சொல்வகைக் குறியீடு‍‍‍‌‍‌ தொகுப்புகள் (Tagset)

தமிழ் இலக்கண நோக்கில் சொற்கள் பொதுவாக நான்கு வகைப்படும். அவை பெயர்ச்சொல், வினைச்சொல், இடைச்சொல், உரிச்சொல் ஆகும்.

மொழி வளரும்போது புதிய சொற்கள்  சேர்ந்து கொண்டுதானிருக்கும். பத்தாண்டுகளுக்கு முன் ‘திறன்பேசி’ என்ற சொல் கிடையாது. இம்மாதிரி பெயர்ச்சொல்தான் நிறைய சேரும். வினைச்சொற்கள் கொஞ்சம் சேரலாம். இவற்றைத் திறந்த சொல்வகை என்று சொல்கிறோம். “ஆனால்”, “அல்லது”, “மற்றும்” போன்ற சொற்கள் மேலும் சேர வழியில்லை. இவற்றை மூடிய சொல்வகை என்று சொல்கிறோம்.

தமிழ் மொழிக்கு இந்தியத் தரக் கட்டுப்பாட்டுச் செயலகம் (Bureau of Indian Standards – BIS) ஒரு குறியீடு தொகுப்பு (Tagset) வெளியிட்டுள்ளது. இந்தியத் தரக் கட்டுப்பாட்டு செயலகம் வெளியிட்ட தமிழ் மொழிக்கான படிநிலை முறை குறியீடு தொகுப்பு இங்கே. இதில் மேல் மட்டத்தில் 11 வகைகள் உள்ளன. ஒவ்வொரு மேல் மட்ட வகைக்கும் பல உள்வகைகள் உள்ளன. எடுத்துக்காட்டாக, பெயர்ச்சொல்லில் 3 உள்வகைகள் உள்ளன – பொதுப்பெயர், தனிப்பெயர், கால இடப்பெயர். வினைச்சொல்லிலோ 3 மட்டங்களில் உள்வகைகள் உள்ளன. எடுத்துக்காட்டாக, முதல் மட்டத்தில் முதன்மை வினைச்சொல். அடுத்த படியில் வினை அடி, வினை முற்று, வினை எச்சம். அதற்கும் அடுத்த படியில் பெயர் எச்சம், நிபந்தனை எச்சம். ஆக மொத்தம் 45 குறியீடுகள் உள்ளன.

அமிர்தா குறிச்சொல் தொகுப்பை இங்கே காணலாம். இதில் 30 சொல்வகைகள் உள்ளன. எனினும் உங்கள் தேவையைப் பொருத்து சில எளிய குறியீடு தொகுப்புகளையும் பயன்படுத்தலாம். பொதுக் குறியீடு தொகுப்பு (Universal POS tags) என்பது அனைத்து மொழிகளிலும் ஒரு பெரிய அளவிலான பொதுக் குறியீடுகளைக் கொண்டது. நடைமுறையில் மிகவும் பயனுள்ளதாக இருக்கும் சொல் வகைக் குறியீடுகளை மட்டுமே இதில் சேர்த்துள்ளார்கள். இதில் 17 சொல் வகைகள் மட்டுமே உள்ளன. திறந்த சொல்வகைகள் 6, மூடிய சொல்வகைகள் 8, மற்றவை 3.

தமிழ், மற்ற பல இந்திய மொழிகளைப் போலவே, உருபனியல் அல்லது சொற்பகுப்பியல்படி வளமான (morphologically rich) மொழி ஆகும். பெரும்பாலும் நாம் ஒரு சொல்லை பெயர்ச்சொல்லா, பெயருரிச்சொல்லா, வினையுரிச்சொல்லா அல்லது பின்னிடைச்சொல்லா என்பதை சொற்றொடரியல் செயல்பாடு அல்லது சூழலை வைத்துத்தான் முடிவு செய்ய இயலும். ஆகையால் தமிழில் சொல் வகைக் குறியீடு செய்வது கொஞ்சம் சிக்கலான வேலையாக உள்ளது.

எடுத்துக்காட்டாக, “சென்னையில் நான்கு ஆண்டுகளாக வசிக்கிறேன்” இந்த வாக்கியத்தில், ‘ஆண்டுகளாக’ என்ற சொல்லை ‘ஆண்டு’ (பெயர்ச்சொல்) + ‘ஆக’ (வினையடை பின்னொட்டு) எனப் பிரிக்கலாம். தமிழ் மொழியில் ‘ஆக’ பொதுவாக ஒரு பெயர்ச்சொல்லுடன் இணைந்து ஒரு வினையடை உருவாக்குகிறது. எடுத்துக்காட்டு, “இந்தக் கட்டடம் பள்ளிக்கூடமாக இருக்கிறது”. ஆனால் இந்த வழக்கில் ‘ஆக’ என்பது ஆங்கிலத்தில் ‘for’ என்ற பொருளை ஒத்துள்ளது.

சொல் தெளிவின்மை எடுத்துக்காட்டு

சொல் தெளிவின்மை எடுத்துக்காட்டு

ஆங்கில சொல்வகைக் குறியிடும் கருவிகள் (POS taggers)

குறியீடு செய்யும் கருவிகள் இரண்டு வகையானவை. ஆங்கிலத்தில் முதலில் விதிமுறைகள்படி குறியீடு செய்யும் கருவிகள்தான் வந்தன. பின்னர்தான் புள்ளி விவரங்கள்படியான கருவிகள் வந்தன. புள்ளிவிவர அடிப்படையிலானவை அண்டை சொற்களைப் பற்றிய தகவலைப் பயன்படுத்துகின்றன.

தமிழ் சொல்வகைக் குறியிடும் கருவிகள்

சொல்வகைக் குறியீடு (POS tagging) செய்வதன் ஒரு நோக்கம் பல்பொருள் ஒரு சொல் (homonym) போன்ற தெளிவிலா உரையைத் தெளிவுபடுத்துவதாகும். குறியீடு செய்யும் கருவிகளை விதிமுறை அடிப்படை, புள்ளிவிவர அடிப்படை என்று இரண்டாக வகைப்படுத்தலாம். விதிமுறை அடிப்படையிலானவை குறியீடு தெளிவின்மையை வேறுபடுத்த கைமுறையாக எழுதப்பட்ட விதிகளைப் பயன்படுத்துகின்றன.

வழக்கமாக, புள்ளிவிவர மாதிரிகள் அண்டை சொற்களைப் பற்றிய தகவலைப் பயன்படுத்திப் பொருத்தமான குறியீடுகளை இடுகின்றன. எடுத்துக்காட்டாக, ‘நான் படி ஏறினேன்’ என்ற வாக்கியத்தில் ‘படி’ என்பது படிக்கட்டு என்றால் பெயர்ச்சொல், அல்லது படிக்கச் சொன்னால் வினைச்சொல். இந்த வாக்கியத்தில் ஒரு வினைச்சொல்லுக்கு முன்னால் இருப்பதால் அது ஒரு பெயர்ச்சொல்லாகத்தான் இருக்க வேண்டும்.

தமிழ் ஒட்டு நிலை மொழி என்பதால் உருபனியல் ஆய்வு செய்தே குறியீடு செய்யலாம். வாசு ரெங்கநாதன் தயாரித்த, ஓரளவு சொற்களை மட்டுமே குறியீடு செய்யும், உருபனியல் குறியீட்டுக் கருவி ஒன்று உள்ளது. தமிழ்மொழி போன்ற ஒட்டு நிலை மற்றும் கட்டற்ற சொல் வரிசை மொழிகளுக்கான சிறந்த குறியிடுதல் திட்டத்தை அடையாளம் காண, குறியிடுதல் வழிமுறைகளைப் பல்வேறு கோணங்களிலிருந்து முயற்சிக்க வேண்டும்.

2016 ஆம் ஆண்டு மே மாதம் அண்ணா பல்கலைக்கழக KBC ஆய்வுமையம் தமிழ் சொல்வகைக் குறியிடும் கருவி ஒன்றை வெளியிட்டது. இது GNU GPL 3.0 பொது உரிமத்தின் கீழ் வெளியிடப்பட்டது. பதிவிறக்கம் கிடையாது, எழுதிக் கேட்க வேண்டும்.

RDRPOSTagger என்ற கட்டற்ற சொல்வகைக் குறியீடு செய்யும் மென்பொருளைப் (POS tagger) பயன்படுத்தி நான் ஒரு தமிழ் சொல்வகைக் குறியிடும் கருவி தயாரித்தேன். இந்தக் கருவி 30 சொல்வகைகள் கொண்ட அமிர்தா குறிச்சொல் தொகுப்பு (Amrita Tagset) படி குறியீடு செய்யத் தயார் செய்தது. கைமுறையாகக் குறியீடு செய்த சொல்வங்கி (tagged corpus) பயன்படுத்தி, இயந்திரக் கற்றல் (machine learning) மூலம் இது தயார் செய்தது. நீங்கள் இதை வைத்து உங்கள் தமிழ் உரையைக் கட்டளை வரியிலும் (command line) பைதான் நிரல் மூலமும் குறியீடு செய்யலாம். மாதிரி குறியீடு செய்த வாக்கியம் இங்கே:

என்ன/QW செய்வது/VBG என்று/COM அவர்களுக்குத்/PRP தெரியவில்லை/VAX ./.

கைமுறையாக சொல்வகைக் குறியீடு செய்த உரைத்தொகுப்புகள்

2016 ஆம் ஆண்டு மே மாதம் அண்ணா பல்கலைக்கழக KBC ஆய்வுமையம் சொல்வகைக் குறியீடு செய்த உரைத்தொகுப்பு ஒன்றை வெளியிட்டது. இது அரை மில்லியன் சொற்கள் கொண்ட இந்திய மொழிகளில் கிடைக்கக்கூடிய மிகப்பெரிய கைமுறையான சொல்வகைக் குறியீடு செய்த உரைத்தொகுப்பு ஆகும். இது கல்கி கிருஷ்ணமூர்த்தியால் எழுதப்பட்ட புகழ்பெற்ற 20 ஆம் நூற்றாண்டு தமிழ் நாவல் “பொன்னியின் செல்வன்”. இதில் சுமார் 50,000 வாக்கியங்கள் உள்ளன. இந்தியத் தரக் கட்டுப்பாட்டுச் செயலகம் வெளியிட்டு மற்றும் தமிழ் மெய்நிகர் கல்விக்கழகமும் அங்கீகாரம் செய்த குறியீடு தொகுப்பை வைத்து இந்தக் குறியீடு செய்யப்பட்டது.

——————–

இத்தொடரில் அடுத்த கட்டுரை: வாக்கியங்களைக் கூறுகளாகப் பிரித்தலும், பெயரிட்ட உருபொருள் அடையாளம் காணுதலும்

தொடரியல் (syntax). வாக்கியக் கூறாக்கம் (chunking or shallow parsing). பெயரிட்ட உருபொருள் அடையாளம் காணுதல். வாடிக்கையாளர்கள் புகார்களை வகைப்படுத்தி உடன் நடவடிக்கை எடுத்தல்.

%d bloggers like this: