தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 25. தமிழ் – ஆங்கிலம் இயந்திர மொழிபெயர்ப்பு

இயந்திர மொழிபெயர்ப்புக்கு மூன்று வகையான அணுகல்கள் உள்ளன. இவை விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு (Rule-Based Machine Translation – RBMT), புள்ளிவிவர இயந்திர மொழிபெயர்ப்பு (Statistical Machine Translation – SMT) மற்றும் கலப்பு (Hybrid) இயந்திர மொழிபெயர்ப்பு.

விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு

விதி சார்ந்த இயந்திர மொழிபெயர்ப்பில் இந்த இரண்டு வகைகள் உண்டு. மேலோட்டமான மொழிமாற்றம் (Shallow transfer) மற்றும் ஆழ்ந்த மொழிமாற்றம் (Deep transfer). அபெர்டியம் (Apertium) ஒரு கட்டற்ற திறந்த மூல விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு தளம் ஆகும். இது குனு பொது உரிமத்தின் கீழ் வெளியிடப்பட்டுள்ளது. இது ஒரு மேலோட்டமான-மொழிமாற்ற இயந்திர மொழிபெயர்ப்பு அமைப்பு ஆகும். தற்பொழுது, அபெர்டியம், இந்தி – உருது சேர்த்து, 40 நிலையான மொழி இணைகளை வெளியிட்டுள்ளது,

இது இந்தி – உருது போன்ற நெருக்கமாக தொடர்புடைய மொழிகளுக்கு இடையில் மொழிபெயர்க்கவே வடிவமைக்கப்பட்டது, இருப்பினும் இது சமீபத்தில் மாறுபட்ட மொழி இணைகளுக்கும் விரிவாக்கப்பட்டுள்ளது. ஒரு புதிய இயந்திர மொழிபெயர்ப்பு அமைப்பு உருவாக்க, XML வடிவங்களில் மொழி தொடர்பான தரவுகளை (அகராதிகள், விதிகள்) மட்டும் உருவாக்க வேண்டும்.

தமிழ் ஒரு கட்டற்ற சொல் வரிசை மொழி. ஆகவே தமிழிலிருந்து ஆங்கிலத்துக்கு மொழிபெயர்ப்பதில் துல்லியம் குறைவு. ஆங்கிலத்திலிருந்து தமிழுக்கு மொழிபெயர்ப்பதில் துல்லியம் அதிகம்.

மூல மொழியில் ஒரு சொற்பகுப்பியல் ஆய்வியும் இலக்கு மொழியில் ஒரு சொற்பகுப்பியல் உருவாக்கியும் அபெர்டியம் இயந்திர மொழிபெயர்ப்பை தமிழுக்கு செயற்படுத்த முக்கியமானவை. ஹைதராபாத் பல்கலையில் பரமேஸ்வரி இவற்றை உருவாக்க செய்த முயற்சியின் முடிவுகள் இங்கே. சுமார் 68 ஆயிரம் சொற்கள் கொண்ட அகராதியைப் பயன்படுத்தி இருவேறு உரைத்தொகுப்புகளில் 85% சொற்களை மொழிபெயர்ப்பு செய்ய முடிந்ததாம்.

இயந்திர மொழிபெயர்ப்பு செய்முறை வரிசை

விதி சார்ந்த இயந்திர மொழிபெயர்ப்புக்கு கீழ்க்கண்ட செய்முறை வரிசையைப் பின்பற்றுகிறோம்:

  1. பகுப்பாய்வு: பகுப்பாய்வின் போது, உள்ளீட்டைப் பாகுபடுத்த மூல மொழியில் செயலிகளும், இலக்கணம் மற்றும் அகராதியும் தேவை.
  2. மொழிமாற்றம்:
    1. வாக்கியக் கட்டமைப்பு மாற்றத்திற்கு ஒரு இலக்கணம் தேவை.
    2. சொற்களை மொழிமாற்றம் செய்ய இருமொழி அகராதி தேவை.
  3. உருவாக்கம்: கடைசியாக, இலக்கு மொழியில் உருவாக்க இலக்கணமும், அகராதியும் இறுதி மொழிபெயர்ப்புக்குத் தேவை.
தமிழ் - ஆங்கிலம் இயந்திர மொழிபெயர்ப்பு

தமிழ் – ஆங்கிலம் இயந்திர மொழிபெயர்ப்பு

புள்ளிவிவர இயந்திர மொழிபெயர்ப்பு

மருத்துவ, நிதி அல்லது தொழில்நுட்பம் போன்ற குறிப்பிட்ட துறைக்கான பயிற்சி தரவுகளைப் பயன்படுத்தி பயிற்றுவித்தால், புள்ளிவிவர இயந்திர மொழிபெயர்ப்பு இயந்திரம் உயர் வெளியீடு தரத்தை நிரூபித்துள்ளது.

ஒரு குறிப்பிட்ட துறைக்கு குறைந்த பட்சம் இரண்டு மில்லியன் சொற்கள் தேவை என்று பொதுவாகக் கருதப்பட்டாலும், அதைவிடக் குறைந்த தரவுகளை வைத்தே ஏற்றுக்கொள்ளத்தக்க தரத்தை அடைய முடியும் என்று சொல்கிறார்கள். நல்ல தரமான சீரமைக்கப்பட்ட இருமொழித் தொகுப்புகள் உருவாக்க செலவு அதிகம். எனினும் உருவாக்கிய பின்னர் அது நிறுவனத்துக்கு மதிப்பு மிக்க சொத்தாகும்.

புள்ளியியல் இயந்திர மொழிபெயர்ப்புக்கு மோசஸ் (Moses) ஒரு திறந்த மூல மென்பொருள். ஒரு மூல மொழியிலிருந்து ஒரு இலக்கு மொழிக்கு உரைகளை மொழிபெயர்ப்பு செய்ய புள்ளிவிவர மாதிரிகளை பயிற்றுவிக்க பயன்படுகிறது. பயிற்றுவித்த இந்த மாதிரிகளை வைத்து மூல மொழி உரைகளை மொழிபெயர்க்கலாம். பயிற்சி கொடுக்க இரண்டு மொழிகளில் வாக்கியங்கள் சீரமைக்கப்பட்ட ஒரு இணை உரைத்தொகுப்பு வேண்டும்.

இது LGPL உரிமத்தின் கீழ் வெளியீடு செய்யப்பட்டுள்ளது. விண்டோஸ், மேக் மற்றும் லினக்ஸ் கணினிகளில் ஓடும். ஐரோப்பிய ஒன்றிய நிதியுதவியில் உருவாக்கப்பட்டது.

கலப்பு இயந்திர மொழிபெயர்ப்பு

கலப்பு (Hybrid) இயந்திர மொழிபெயர்ப்பில் பொதுவாக RBMT மற்றும் SMT இரண்டும் உண்டு. இதை SYSTRAN போன்ற தனியுரிம நிறுவனங்களே பெரும்பாலும் பயன்படுத்துகின்றன.

நரம்பியல் இயந்திர மொழிபெயர்ப்பு

நரம்பியல் இயந்திர மொழிபெயர்ப்பு (Neural Machine Translation – NMT) என்பது ஒரு பெரிய செயற்கை நரம்பியல் பிணையத்தைப் பயன்படுத்தி அடுத்து வரும் சொற்களின் தொடர்ச்சியைக் கணிக்கிறது. இது பொதுவாக ஒருங்கிணைந்த முன்மாதிரியை வைத்து முழு வாக்கியங்களை உருவாக்க முயற்சிக்கிறது. நரம்பியல் இயந்திர மொழிபெயர்ப்பு என்பது புள்ளிவிவர இயந்திர மொழிபெயர்ப்பில் (SMT) வழக்கமாகச் செய்வதைவிடத் தலைகீழான மாற்றம் அல்ல. ஆகவே இதுவும் புள்ளிவிவர இயந்திர மொழிபெயர்ப்பில் ஒரு வகைதான். ஆனால் மிகவும் மேம்படுத்தப்பட்ட வகை.

இதில் மொழி மாதிரியும், மொழிபெயர்ப்பு மாதிரியும், மறு சீரமைப்பு மாதிரியும் தனித்தனியாகக் கிடையாது. ஆனால் அடுத்து வரும் ஒவ்வொரு சொல்லாகக் கணிக்கும் ஒரு தனி வரிசைமுறை மாதிரி மட்டும் உண்டு. முழு மூல வாக்கியத்தையும் மற்றும் ஏற்கனவே தயாரிக்கப்பட்ட இலக்கு சொல் வரிசைமுறையையும் வைத்து இந்த வரிசைக் கணிப்பு நிர்ணயிக்கப்படுகிறது. ஆழமான NMT இதனுடைய நீட்டிப்பு ஆகும். ஒரே ஒரு அடுக்குக்குப் பதிலாக இது பல நரம்பியல் பிணைப்பு அடுக்குகளை செயல்படுத்துகிறது. இதை ஆழ்ந்த கற்றல் (Deep Learning) என்றும் சொல்கிறார்கள்.

இயந்திர மொழிபெயர்ப்பில் நரம்பியல் பிணையங்களைப் பயன்படுத்துவதற்கான முதல் அறிவியல் அறிக்கை 2014 இல் வெளிவந்தது. முதன்முதலாக 2015 ஆம் ஆண்டில், பொது இயந்திர மொழிபெயர்ப்பு போட்டியில் NMT அமைப்பு இருந்தது. அடுத்த ஆண்டு வெற்றியாளர்களில் 90% NMT பயன்படுத்தியவர்கள். 2016 க்குள், சிறந்த இயந்திர மொழிபெயர்ப்பு அமைப்புகளில் பெரும்பாலானவை NMT அமைப்புகள்தான். கூகிள், மைக்ரோசாப்ட் மற்றும் யாண்டெக்ஸ் மொழிபெயர்ப்பு சேவைகள் இப்போது NMT ஐயே பயன்படுத்துகின்றன.

திறந்த மூல நரம்பியல் இயந்திர மொழிபெயர்ப்பு அமைப்பு, OpenNMT, ஹார்வர்ட் இயல்மொழி ஆய்வுக் குழுவால் வெளியிடப்பட்டது. OpenNMT என்பது நரம்பியல் இயந்திர மொழிபெயர்ப்புக்கான திறந்த மூல முன்முயற்சியாகும். இது அண்மைய ஆழ்ந்த கற்றல் தொழில்நுட்பத்தையே பயன்படுத்துகிறது. இது தற்போது 3 முக்கிய செயலாக்கங்கள் கொண்டது: லுவா (Lua), பைதான் – பைடார்ச்(PyTorch), பைதான் – டென்சார்ஃப்ளோ(TensorFlow). இவை மூன்றுமே தற்போது பராமரிக்கப்படுகின்றன. மூல நிரல்கள் கிட்ஹப்பில் பகிரப்பட்டுள்ளன. OpenNMT MIT உரிமத்தின் கீழ் வெளியிடப்பட்டுள்ளது.

பங்களிப்போர் எண்ணிக்கையையும், பயனர் ஆர்வத்தைக் குறிக்கும் விண்மீன் குறியீடுகளையும் பார்த்தால் கூகிளின் டென்சார்ஃப்ளோதான் (TensorFlow) சவாலில்லாமல் முதலிடத்திலுள்ளது. இது அபாச்சி 2.0 திறந்த மூல உரிமத்தின் கீழ் வெளியிடப்பட்டுள்ளது. இது பைதான் மொழியில் எழுதப்பட்டுள்ளது. ஆனால் கருநிரல் C ++ மற்றும் CUDA வில் எழுதப்பட்டுள்ளது. CUDA என்பது வரைபடச் செயலகம் (GPU) நிரலாக்கம் செய்ய என்விடியா (Nvidia) மொழி.

OpenNMT மென்பொருளை பயன்படுத்தி பயிற்றுவிக்க உங்களுக்கு இரண்டு கோப்புகள்தான் தேவை – மூல மொழிக்கோப்பு மற்றும் இலக்குமொழிக்கோப்பு. ஒவ்வொரு வரியிலும் ஒரு வாக்கியம்தான் இருக்க வேண்டும். சொற்களுக்கு இடையில் இடைவெளி இருக்க வேண்டும்.

வரைபடச் செயலகம் (GPU) சில்லு உள்ள கணினி தேவை

OpenNMT நிரலைப் பயன்படுத்தி பயிற்றுவிக்க NVIDIA நிறுவனத்தால் தயாரிக்கப்பட்ட வரைபட செயலாக்கச் (GPU) சில்லு உள்ள கணினி தேவை. அதுவும் CUDA என்ற கருவித்தொகுதி மென்பொருள் ஓடக்கூடியதாக இருக்க வேண்டும். உங்கள் கணினியில் இவை உள்ளனவா என்று பார்க்க இங்கே செல்லவும். பெரிய அளவில் தரவைச் செயலாக்க வேண்டியிருப்பதால், பொதுவாக எந்த இயந்திர கற்றல் திட்டத்திற்கும் வரைபடச் செயலகம் சில்லு வைத்த கணினி தேவைப்படுகிறது.

இயந்திர மொழிபெயர்ப்பு அணுகல்களில் நல்லதும் கெட்டதும்

RBMT அமைப்புகள் மொழியின் மூன்று முக்கியமான குறைபாடுகளை எதிர்கொள்கின்றன:

1) ஒரு இயந்திரத்தைப் பொருத்தவரை மொழியின் உள்ளார்ந்த தெளிவின்மை. மனிதர்களைப் போல சொல்லின் பொருள் சார்ந்த உள்ளுணர்வு இயந்திரங்களுக்குக் கிடையாது.

2) விலக்கு அடிப்படையிலான இலக்கண அமைப்பு.

3) எப்போதும் விரிவாகிக்கொண்டிருக்கும் கலைச்சொற்கள் அகராதி.

NMT அணுகுமுறை மொழி கட்டமைப்பை நன்றாகக் கற்றுக் கொள்ளும், ஆனால் RBMT அல்லது SMT போல் நீண்ட சொல் பட்டியலை ஞாபகம் வைத்துக் கொள்வதில் அவ்வளவு சிறப்பாக இல்லை. சொற்களின் பட்டியலை RBMT  நன்றாகக் கையாளும், ஆனால் வாக்கிய அமைப்பு சரியாக வராது. SMT இவற்றுக்கு இடையில் உள்ளது. வாக்கியங்கள் சரளமாக வருவது போலிருக்கும், ஆனால் சில நேரங்களில் மொழிபெயர்ப்பு முற்றிலும் தவறானதாக இருக்கலாம்.

NMT பற்றிய சுவாரசியமான அம்சம் என்னவென்றால், PBSMT (சொற்றொடரை அடிப்படையாகக் கொண்ட SMT) யை விட இரைச்சல் மிகுந்த தரவுக்கு சகிப்புத்தன்மை அதிகம். பொதுவான NMT அமைப்புகளில் ஒரு குறிப்பிடத்தக்க பலவீனம் என்னவென்றால் மிகவும் அரிதான வார்த்தைகளை அவை சரியாக மொழிபெயர்ப்பதில்லை.

ashokramach@gmail.com

—————–

இத்தொடரில் அடுத்த கட்டுரை: சொற்பிழைத் திருத்தி

தமிழுக்குச் சொல்திருத்தியே தேவையில்லை என்றொரு கருத்து. உரையில் சொற்பிழை சரிபார்ப்பு பின்வரும் படிகளைக் கொண்டுள்ளது. வேட்பு சொற்கள். ஹன்ஸ்பெல் திறந்த மூல சொற்பிழைத் திருத்தி. தமிழுக்கு நான் உருவாக்கிய ஹன்ஸ்பெல் பின்னொட்டு விதிகள். லேங்குவேஜ் டூல் திறந்த மூல சொற்பிழைத் திருத்தி.

%d bloggers like this: