தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 22. அடிச்சொல், தண்டுச்சொல் மற்றும் சொற்பகுப்பாய்வு

பகுதி விகுதி இடைநிலை சாரியை

சந்தி விகாரம் ஆறினும் ஏற்பவை

முன்னிப் புணர்ப்ப முடியும் எப்பதங்களும்

நன்னூல். பதவியல் – 133 (13 ஆம் நூற்றாண்டில் பவணந்தி முனிவரால் எழுதப்பட்ட தமிழ் இலக்கண நூல்)

சொற்பகுப்பியல் (morphology)

சொற்கள் எப்படி சிறிய அலகுகளால் உருவாக்கப்படுகின்றன என்ற சொல் கட்டமைப்பு ஆய்வை சொற்பகுப்பியல் அல்லது உருபனியல் என்று சொல்கிறோம். சொல் என்பது என்ன? மொழியை எழுதும்போது, சொல் என்பது இரு இடைவெளிகளுக்கு இடையே இருப்பது என்று நாம் சொல்லலாம். ஆனால் சொல் என்பது ஒரு பொருளுள்ள கருத்து. “மைசூர் பாகு” என்பது ஒரு பொருளுள்ள கருத்து. மொழியைப் பேசும்போது இதை நாம் ஒரே சொல்லாகச் சேர்த்து உச்சரிக்கிறோம். ஒரு சொல்லைப் பகுக்கும்போது வரும் யாவற்றினும் மிகச்சிறிய அடிப்படை அலகை உருபன் (morpheme) என்கிறோம். இது அடிச்சொல், ஒட்டுகள் இரண்டுக்குமே பொதுவான பெயர்.

நாம் ஒரு சொல்லைப் பற்றித் தேடும்போது, தேடல் பெட்டியில் உள்ளிட்டது மட்டுமல்லாமல் அதன் பிற சாத்தியமான வடிவங்களுக்கும் பொருத்தமான முடிவுகளைக் கண்டுபிடிக்கத்தான் விரும்புகிறோம். எடுத்துக்காட்டாக “சிங்கப்பூர்” என்று தேடல் பெட்டியில் உள்ளிடுகிறோம் என்று வைத்துக் கொள்வோம். நமக்கு “சிங்கப்பூரின்”, “சிங்கப்பூருடன்”, “சிங்கப்பூரிலேயே” என்ற சொற்கள் இருக்கும் பக்கங்களும் தேவைதானே?

சொற்பகுப்பியல்படி வளம் மிகுந்த தமிழில் சொல் வடிவம் அதிகமாக மாறும். ஒரே அடிச்சொல்லை வைத்து காலம், திணை, இடம், எண், பால் போன்ற இலக்கண வகைகளுக்குத் தகுந்தவாறு ஒட்டுகள் சேரும். இம்மாதிரி ஒட்டுகள் சேர்வது வினைச்சொல்லில் மிக அதிகம், அடுத்து பெயர்ச்சொல்.

பகுபதம் என்பது பகுக்க அல்லது பிரிக்கக்கூடிய வகையில் அமைந்த சொல். மேலே கண்ட நன்னூல் வரிகள்படி பகுபதத்தைப் பகுதி, விகுதி, இடைநிலை, சாரியை, சந்தி, விகாரம் என்ற ஆறாகப் பகுக்க முடியும் என்று தமிழ் பகுபத உறுப்பு இலக்கணம் சொல்கிறது.

அடிச்சொல் பிரிப்பி (Lemmatizer or Lemma extractor)

ஒரு ஆவணத்தில் முக்கிய சொற்களைப் பட்டியலிடவேண்டும் என்று வைத்துக் கொள்வோம். எடுத்துக்காட்டாக, ஒரு ஆவணத்தில் ‘மின்னூல்’, ‘மின்னூல்கள்’, ‘மின்னூலை’, ‘மின்னூலின்’ என்று சொல்லின் வேறுபாடுகள் இருக்கலாம். இவற்றை முழுச்சொற்கள் என்று சொல்லலாம். எந்த சொல் அடிக்கடி வருகிறது என்று புள்ளிவிவரம் பார்க்கும்போது இவற்றை தனித்தனியே எண்ணிக்கை எடுத்தால் சரியாக வருமா? இவ்வெல்லாச் சொற்களையும் அடிச்சொல் ஆக்கிக் கூட்டினால், இது மின்னூல் பற்றிய ஆவணம் என்று உடன் கூறிவிடலாம் அல்லவா? இதற்கு நல்ல அடிச்சொல் பிரிப்பி தேவை (Lemmatizer or Lemma extractor). முழுச்சொல்லை பகுபத உறுப்பிலக்கணம்படி பிரித்தெடுத்து கடைசியில் வரும் அடிச்சொல் சொல்லகராதியில் உள்ளதாக வெளியிட வேண்டும். இது கடினமான வேலை.

ஆங்கில தண்டுச்சொல் பிரிப்பி (Stemmer)

சில வேலைகளுக்கு இவ்வளவு மெனக்கெடாமல் ஒட்டுகளை உத்தேசமாக வெட்டிவிட்டுத் தண்டுச் சொல்லை வைத்துக் கொள்ளலாம். இது சொல்லகராதியில் உள்ள சொல்லாக இருக்க வேண்டிய அவசியமில்லை. இதைத் தண்டுச்சொல் பிரிப்பி என்று சொல்கிறோம். எடுத்துக்காட்டாக, ஆங்கிலத்தில் பரவலாகப் பயன்படுத்தப்படும் போர்ட்டர் தண்டுச்சொல் பிரிப்பி (Porter stemmer) ‘apple’, ‘apples’ இரண்டையுமே ‘appl’ என்ற தண்டுச்சொல்லாகப் பிரிக்கிறது. ‘appl’ என்பது அகராதி சொல் அல்ல. இருப்பினும் நாம் தேடும் சொல்லையும் ஆவணத்திலுள்ள சுட்டுச் சொல்லையும் அதே தண்டுச் சொல்லாக்குவதால் ஒப்பிடும்போது வேலைக்கு ஆகிறது.

இரு சொற்களும் அதே லத்தீன் வேரிலிருந்து பெறப்பட்டாலும், நாம் ‘universe’, ‘university’ என்ற சொற்களை ஒப்பிட விரும்பமாட்டோம்.

வினவல்களுக்கும் சுட்டு ஆவணங்களுக்கும் தண்டுச்சொல் பிரிப்பியைப் பயன்படுத்தினால், சொற்களின் வேறுபட்ட வடிவங்களை ஒன்றாக்கி தேடல் திறனை அதிகரிக்க முடியும். ஆனால் வினவல், ஆவணங்கள் இரண்டுக்குமே ஒரே தண்டுச்சொல் பிரிப்பியைப் பயன்படுத்துவது மிக முக்கியம்.

தமிழ் தண்டுச்சொல் பிரிப்பி

திரு. தாமோதரன் ராஜலிங்கம் ஒரு தண்டுச் சொல் பிரிப்பி உருவாக்கி திறந்த மூலமாகப் பகிர்ந்து கொண்டுள்ளார். இது விதிமுறைப்படி படிப்படியாக ஒட்டுகளை அகற்றக்கூடியது. தமிழ்ச் சொற்களில் இது முன்னொட்டுகளையும் பின்னொட்டுகளையும் அகற்றுகிறது. ஆனால் கூட்டுச் சொற்களுக்கு (எடுத்துக்காட்டு: கருப்பு + குதிரை = கருங்குதிரை) வேலை செய்யாது.

இதை ஸ்னோபால் (Snowball) மொழியைப் பயன்படுத்தி செயல்படுத்தியுள்ளார். ஸ்னோபால் என்பது தகவல் மீட்புக்குத் தேவையான வினைச்சரங்களை உருவாக்கும் ஒரு சிறிய சரம் செயலாக்க மொழி ஆகும்.

இதற்கு மாறாக, அடிச்சொல் பிரிப்பியோ சொல்லின் அடிப்படை புரியாமல் மேலெழுந்த வாரியாக தலையையும் வாலையும் வெட்டுவது இல்லை. அதற்குப் பதிலாக சொற்களின் சரியான அடிப்படை வடிவங்களைப் பெற சொல்வலை (wordnet) போன்ற ஒரு தரவுத்தளத்தை நம்பியுள்ளது. சில அடிச்சொல் பிரிப்பிகளுக்கு சொல்வகைக் குறியீடையும் (POS) உள்ளிட வேண்டும். இல்லையெனில், அது சொல்லை ஒரு பெயர்ச்சொல் என்றே கருதுகிறது. இறுதியாக, அடிச்சொல் பிரிப்பியால் தெரியாத சொற்களைக் கையாள முடியாது.

ஆங்கிலத்திலும் மற்ற மொழிகளிலும் சொற்பகுப்பாய்வு (morphological analysis)  

அபெர்டியம் (Apertium) என்பது இயந்திர மொழிபெயர்ப்புக்குத் திறந்த மூல மென்பொருள். இந்த திட்டத்தின் ஒரு பகுதியான மொழித் தொழில்நுட்பம் கருவிப்பெட்டி (Language Technology Toolbox) ஆங்கிலத்துக்கும் மற்ற சில ஐரோப்பிய மொழிகளுக்கும் உருபனியல் ஆய்வு செய்ய உதவுகிறது. அதாவது கொடுத்த சொல்லை அதன் அடிச்சொல்லாகவும், ஒட்டுகளாகவும் பிரிக்கிறது. மேலும் அதன் எதிர் செயல்முறையையும் செய்யும். அதாவது அடிச்சொல்லையும், ஒட்டுகளையும் சேர்த்து முழுச்சொல் வடிவத்தையும் உண்டாக்கும்.  

தமிழில் உருபனியல் ஆய்வு

அடிச்சொல் மற்றும் ஒட்டுகளைச் சேர்த்துப் பொதுவாக உருபன் (morpheme) என்று சொல்கிறோம். அடிச்சொல் (base morpheme) தனித்து செயல்படும்,  அகராதியில் உள்ள, சொல் (எ.கா., வாங்கு). ஒட்டுகள் (bound morpheme) அகராதியில் இருக்காது (எ.கா., னார்). இவை அடிச்சொல்லுடன் முன்னொட்டாகவோ அல்லது பின்னொட்டாகவோதான் வர முடியும்.

உருவமைப்புப்படி ஒரு சொல்லின் எல்லா உருபன்களையும் பிரித்தெடுப்பதை உருபனியல் ஆய்வு (morphological analysis) என்று சொல்கிறோம். அண்ணா பல்கலைக்கழகத்தில் கேபிசி ஆராய்ச்சி மையம் தமிழ் உருபனியல் பகுப்பாய்வி (Morphological Analyser) ஒன்றைத் தயாரித்துள்ளது. இதை 3 மில்லியன் சொற்கள் கொண்ட மைய இந்திய மொழிகள் கழகத்தின் உரைத்தொகுப்பை வைத்து சோதனை செய்தபோது 95% சொற்களை ஆய்வு செய்ய முடிந்ததாம். இது முன்னுதாரணம் சார்ந்த அணுகுமுறையில் (paradigm-based approach) வரையறுக்கப்பட்ட நிலை இயந்திரமாக (Finite State Machine) செயல்படுத்தப்பட்டுள்ளதாம்.

மும்பை இந்திய தொழில்நுட்பக் கழகத்தில் அனூப் குஞசுக்குட்டன் இந்திய மொழிகளுக்கான இயல்மொழி நிரலகம் ஒன்றை திறந்த மூலமாக பொது உரிமம் 3.0 கீழ் வெளியிட்டுள்ளார். இதில் ஒரு தமிழ் உருபனியல் பகுப்பாய்வியும் உள்ளது. ஒரு சொல்லைக் கொடுத்தால் அதைப் பகுப்பாய்வு செய்து உருபன்களாகத் தரும். ஆக்க நிலை ஒட்டுகளையும் (Derivational suffixes) உட்பிணைப்பு ஒட்டுகளையும்.(Inflectional suffixes) அடையாளம் கண்டு விடுமாம்.

ஆக்க நிலை ஒட்டுகள் சொல்வகையை மாற்றும். எடுத்துக்காட்டாக ஆங்கிலத்தில் ‘person’ என்பது பெயர்ச்சொல். ‘al’ என்று ஒட்டு சேர்த்தால் ‘personal’ என்ற பெயரடை. தமிழில் ‘ஓட்டு’ என்ற வினைச்சொல்லுடன் ‘நர்’ என்ற ஒட்டு சேர்த்தால் ‘ஓட்டுநர்’ என்ற பெயர்ச்சொல் கிடைக்கும்.

————

இத்தொடரில் அடுத்த கட்டுரை: சார்புநிலை பிரிப்பி, சுட்டுப்பெயர் தீர்வு, தலைப்பு பிரித்தெடுத்தல்

சார்புநிலை பிரிப்பி. கிளைப்பட வங்கி. சார்புநிலை பிரிப்பி திறந்த மூல பைதான் நிரல். சுட்டுப்பெயர் தீர்வு. தலைப்பு பிரித்தெடுத்தல்.

%d bloggers like this: