Author Archive: இரா. அசோகன்

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 25. தமிழ் – ஆங்கிலம் இயந்திர மொழிபெயர்ப்பு

இயந்திர மொழிபெயர்ப்புக்கு மூன்று வகையான அணுகல்கள் உள்ளன. இவை விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு (Rule-Based Machine Translation – RBMT), புள்ளிவிவர இயந்திர மொழிபெயர்ப்பு (Statistical Machine Translation – SMT) மற்றும் கலப்பு (Hybrid) இயந்திர மொழிபெயர்ப்பு. விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு விதி சார்ந்த இயந்திர மொழிபெயர்ப்பில் இந்த இரண்டு வகைகள்…
Read more

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 24. இயல்மொழி ஆய்வு கருவித் தொடரி

இயல்மொழி ஆய்வில் எந்தவொரு வேலையை நிறைவேற்றவும் பல பணிகளை ஒன்றன்பின் ஒன்றாகச் செயல்படுத்த வேண்டும். எந்தவொரு சிறிய வேலைக்குக் கூட பெரும்பாலும் கீழ்க்கண்ட பணிகள் இன்றியமையாதவை: வாக்கியங்களைப் பிரித்தல் சொற்களைப் (நிறுத்தற் குறிகளையும் சேர்த்து) பிரித்தல் சொல்வகைக் குறியீடு செய்தல் அடிச்சொல்லையோ, தண்டுச்சொல்லையோ பிரித்தெடுத்தல் இதன் பின்னர், தேவையைப் பொருத்து, சார்புநிலைப் பிரிப்பியை வைத்து கிளைப்பட…
Read more

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 23. சார்புநிலை பிரிப்பி, சுட்டுப்பெயர் தீர்வு, தலைப்பு பிரித்தெடுத்தல்

சார்புநிலை பிரிப்பி இயல்மொழியைப் புரிந்து கொள்வது கடினமானது!  “I saw a girl with a telescope” என்ற வாக்கியத்தைப் பாருங்கள். தொலைநோக்கி வைத்திருந்த பெண்ணை நீங்கள் பார்த்தீர்களா அல்லது நீங்கள் தொலைநோக்கி மூலம் பார்த்தீர்களா? இது ஆங்கில எடுத்துக்காட்டு. எனினும் தமிழிலும் இதே பிரச்சினை உள்ளது. “ஜெயலலிதாவைத் திருப்திப்படுத்தும் ஆர்வத்தில் சட்டசபையில் காங்கிரஸ் உறுப்பினர்கள்…
Read more

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 22. அடிச்சொல், தண்டுச்சொல் மற்றும் சொற்பகுப்பாய்வு

பகுதி விகுதி இடைநிலை சாரியை சந்தி விகாரம் ஆறினும் ஏற்பவை முன்னிப் புணர்ப்ப முடியும் எப்பதங்களும் நன்னூல். பதவியல் – 133 (13 ஆம் நூற்றாண்டில் பவணந்தி முனிவரால் எழுதப்பட்ட தமிழ் இலக்கண நூல்) சொற்பகுப்பியல் (morphology) சொற்கள் எப்படி சிறிய அலகுகளால் உருவாக்கப்படுகின்றன என்ற சொல் கட்டமைப்பு ஆய்வை சொற்பகுப்பியல் அல்லது உருபனியல் என்று சொல்கிறோம்….
Read more

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 21. சொல்வலையும் சொல்லின் பொருளில் ஐயமகற்றலும்

அடுத்து வரும் நான்கு வாக்கியங்களைப் பாருங்கள். அவன் வீட்டிற்குச் சென்று இட்லி சாப்பிட்டான். பின்னர் அவன் சமையலறையைச் சுத்தம் செய்து விட்டு நாற்காலியில் அமர்ந்தான். சிறிது நேரம் கழித்து, அவன் இருக்கையில் இருந்து எழுந்தான். அவன் படுக்கைக்குச் சென்றான், சில நிமிடங்களில் அவன் சத்தமாகக் குறட்டை விட்டான். இயல்மொழி செயலாக்கத்தில், வாக்கியங்களின் பொருளை அறிய கணினி…
Read more

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 20. தமிழின் தனித்தன்மைகளை வைத்துக் குறியிட்ட உரைகள் தேவையைக் குறைக்க முடியுமா?

சொல்வகைக் குறியீடு ஒரு சவால் மிகுந்த சிக்கலான பணியாகும். ஏனெனில் அகராதியில் இல்லாத தனிப்பெயர்ச்சொற்கள், மற்ற மொழிச் சொற்கள், மாற்று எழுத்துக்கோர்வை, எழுத்துப் பிழைகள், தெரியாத சொற்கள் போன்றவை வரலாம். இயந்திரக் கற்றல் நுட்பங்களைப் பயன்படுத்தி ஆங்கிலத்துக்குப் பல சொல்வகைக் குறியீடு செய்யும் கருவிகள் உருவாக்கப்பட்டுள்ளன. இயந்திரக் கற்றல் நுட்பங்களுடன், விதிகள் சார்ந்த அணுகுமுறைகளைக் கலந்தும்…
Read more

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 19. வாக்கியக் கூறு பிரித்தலும், பெயரிட்ட உருபொருள் அடையாளம் காணுதலும்

நாம் எண்ணங்களை சொற்களாலும் வாக்கியங்களாலும் வெளிப்படுத்துகிறோம். எல்லா மொழிகளும் சொற்களையும் வாக்கியங்களையும் கொண்டிருக்கின்றன. ஆனால் அவை பல்வேறு வழிகளில் ஒழுங்கமைக்கப்படுகின்றன. தொடரியல் (syntax) தொடரியல் என்பது சொற்களை வைத்து எவ்வாறு வாக்கியங்களை அமைக்கிறோம் என்ற வாக்கியக் கட்டமைப்பு ஆய்வு. தமிழ் இலக்கணப்படி எழுவாய் என்பது ஒரு வாக்கியத்தில் செயலைக் காட்டும் சொல்மீது “யார், எது, எவை”…
Read more

ஆன்டிராய்டு திறன்பேசியில் பாதுகாப்பும் அகவுரிமையும்

கூகிள் விளையாட்டு அங்காடி (Google Play Store) தீங்குநிரல்கள் நிறைந்து, பாதுகாப்பு மற்றும் அகவுரிமைக்கு மிகவும் பாதகமாகிவிட்டது ஆன்டிராய்டு இயங்கு தளத்துடன் சேர்ந்தே கூகிள் அங்காடி வருகிறது, ஆகவே தனியாகப் பதிவிறக்கம் செய்து நிறுவத் தேவை இல்லை. இதில் மூன்று மில்லியனுக்கு மேற்பட்ட செயலிகள் உள்ளன. உங்களால் கற்பனை செய்யக்கூடிய எல்லா வேலைகளுக்கும் இதில் செயலிகள்…
Read more

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 18. சொல்வகைக் குறியீடும் குறியிட்ட உரைத்தொகுப்புகளும்

பேச்சறிதல், இயற்கை மொழி பாகுபடுத்தல், தகவல் பெறுதல் மற்றும் தகவல் பிரித்தெடுத்தல் போன்ற இயல்மொழி செயலிகளில் குறியீடுகள் முக்கிய பங்கை வகிக்கின்றன. ஆங்கிலத்தில் பொதுவாக ஒன்பது சொல்வகைகள் உள்ளன என்று பள்ளியில் கற்பிக்கின்றனர்: பெயர்ச்சொல் (noun), வினைச்சொல் (verb), சுட்டிடைச் சொல் (article), பெயருரிச்சொல் அல்லது  பெயரடை (adjective), முன்னிடைச்சொல் (preposition), பதிலிடு பெயர் (pronoun),…
Read more

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 17. உரையும் பேச்சும் கொண்ட மொழித்தொகுப்பு

மொழியியல் பகுப்பாய்வுக்கு அடிப்படையாக இருக்கும், உரையும் பதிவு செய்த பேச்சும் கொண்ட தொகுப்புகளை, மொழித்தொகுப்பு (corpus) என்று சொல்கிறோம். ஆங்கில மொழித்தொகுப்புகளின் வரலாறு 100 மில்லியன் சொற்கள் கொண்ட பிரிட்டானிய நாட்டு மொழித்தொகுப்பு (BNC), பர்மிங்ஹாம் மொழித்தொகுப்பு, லன்காஸ்டர் ஆங்கில பேச்சுத் தொகுப்பு முதலிய தொகுப்புகள் ஆங்கில மொழிக்குப் பிரபலமானவை. இருமொழி மொழித்தொகுப்புகள் இரண்டு மொழிகளின் மொழிபெயர்ப்பைக்…
Read more