தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 11. பெரு நிறுவனங்களின் தமிழ் சேவைகளை நம்பியே இருந்தால் என்ன?

கூகிள், ஆப்பிள், முகநூல், அமேசான், மைக்ரோசாப்ட் போன்ற பெரு நிறுவனங்கள் மொழி பற்றிய சேவைகள் பலவற்றை இலவசமாகத் தருகின்றன. எடுத்துக்காட்டாக கூகிள் தரும் மொழிக் கருவிகளைப் பற்றி விவரமாகப் பார்ப்போம்.

கூகிள் ஜி-போர்ட் – தமிழில் தட்டச்சும் சொல்வதெழுதலும்

ஜி-போர்ட் என்பது ஆண்ட்ராய்ட் மற்றும் ஆப்பிள் சாதனங்களுக்காக கூகிள் உருவாக்கிய மெய்நிகர் விசைப்பலகை செயலியாகும். தற்போது ஆண்ட்ராய்ட் திறன்பேசிகளில் 300 க்கும் மேற்பட்ட மொழிகளை ஆதரிக்கிறது. இதன் கணிக்கக்கூடிய இயந்திரம் (predictive typing engine), நாம் தட்டச்சு செய்து கொண்டிருக்கும் போது, சற்று முன் உள்ளிட்ட சொற்றொடர்களை வைத்து அடுத்த சொல் என்னவாக இருக்கும் என்று ஊகித்து சில சொற்களை யோசனை சொல்கிறது. அவற்றில் ஒன்று சரியாக இருந்தால் நாம் ஒவ்வொரு எழுத்தாக அடிக்காமல் உடன் தேர்வு செய்யலாம்.

இதன் பிப்ரவரி 2017 வெளியீடு சொல்வதெழுதல் ஆதரவைச் சேர்த்துள்ளது. பயனர்கள் மைக் பொத்தானை அழுத்திப் பேசினால் தானே எழுதி விடும். தவறுகளை மட்டும் திருத்திக் கொள்ளலாம். ஏப்ரல் 2017 வெளியீடு தமிழைச் சேர்த்து, மொத்தம் 22 இந்திய மொழிகளை ஆதரிக்கிறது. ஒற்றை வார்த்தைகளை விட முழுச் சொற்றொடரை ஊகிப்பதற்காக ஜூன் 2017 இல் மேம்படுத்தப்பட்டுள்ளது.  ஆனால் இந்த வசதி இன்னும் தமிழில் வரக் காணோம்.

கூகிள் ஒளி எழுத்துணரி

கூகிள் ஒளி எழுத்துணரி (Optical Character Recognition OCR) மென்பொருள் இப்போது 248 க்கும் மேற்பட்ட உலக மொழிகளுக்கு (அனைத்து முக்கிய தென் ஆசிய மொழிகள் உட்பட) வேலை செய்கிறது. இது படங்களிலிருந்து உரைகளைப் பிரித்தெடுக்கிறது. இது அச்சிடப்பட்ட உரைகள், கையெழுத்து போன்றவற்றைக் கூட உரையாக மாற்றும். எனவே, பழைய புத்தகங்களிலோ, கையெழுத்துப் பிரதிகளிலோ அல்லது படங்களிலோ இருக்கும் உரையைப் பிரித்தெடுக்கலாம்.

கூகிள் ஒளி எழுத்துணரியைப் பயன்படுத்த எளிதான வழி கூகிள் ஆவணங்கள் (Google Docs) மூலமாகத்தான். பிரித்தெடுக்க வேண்டியதை JPEG, PNG, GIF, அல்லது பல பக்கங்கள் கொண்ட PDF கோப்பாக கூகிள் ஆவணங்களுக்கு பதிவேற்றுங்கள். பட்டியலில் அந்த கோப்பை வலச் சொடுக்கு செய்து Open With -> Google Docs தேர்வு செய்யுங்கள். கூகிள் ஒளி எழுத்துணரி தானே அது எந்த மொழியில் எழுதப்பட்டுள்ளது என்று கண்டுபிடித்து உரையாக மாற்றும்.

கூகிள் மொழிபெயர்ப்புச் செயலி

ஆண்ட்ராய்ட் மற்றும் ஆப்பிளுக்கான கூகிள் மொழிபெயர்ப்பு செயலி 100 க்கும் மேற்பட்ட மொழிகளுக்கு ஆதரவளிக்கிறது. இரண்டு மொழிகளுக்கு இடையே இயந்திர மொழிபெயர்ப்பு அமைப்பை உருவாக்க 150-200 மில்லியன் சொற்கள் கொண்ட இருமொழி சொல்வங்கியும் (bilingual text corpus), அவ்விரு மொழிகளுக்கும் தனித்தனியே இரண்டு பில்லியன் சொல்வங்கிகளும் (monolingual corpora) தேவைப்படும் என்று கூகிள் தொழில்நுட்ப வல்லுநர் கூறுகிறார்.  இந்தத் தரவுகளிலிருந்து புள்ளிவிவர மாதிரிகள் அந்த மொழிகளுக்கு இடையே மொழிபெயர்க்கப் பயன்படுத்தப்படுகின்றன.

கூகிள் மொழிபெயர்ப்பு பெரும்பாலும் ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு நேரடியாக மொழிபெயர்ப்பதில்லை. எடுத்துக்காட்டாக, நீங்கள் தமிழிலிருந்து வங்காளத்துக்கு மொழிபெயர்த்தால் அது உள்ளுக்குள் முதலில் ஆங்கிலத்திற்கு மொழிபெயர்த்து பின்னர் ஆங்கிலத்தில் இருந்து வங்காள மொழியில் மொழிபெயர்த்து முடிவை உங்களுக்குக் காட்டும்.

2017 மார்ச் மாதம் நரம்பியல் அடிப்படையிலான இயந்திர மொழிபெயர்ப்பை (Neural Machine Translation – NMT) கூகிள் மொழிபெயர்ப்பு அறிமுகப்படுத்தியது. முன்னர் இது சொற்றொடர் அடிப்படையிலான (Phrase Based) இயந்திர மொழிபெயர்ப்பாக இருந்தது. இந்தப் புதிய NMT முழு வாக்கியத்தையும் ஒரு உள்ளீடாகக் கருதி அதை முழுமையாக மொழிபெயர்க்கிறது. இது ஆழமான நரம்பியல் அடிப்படையிலான பிணையங்களைப் பயன்படுத்துகிறது. இது மற்ற தகவல்களிடமிருந்து கற்பதன் மூலம் ஒரு கணினியால் போகப் போக முன்பு பார்த்திராத சூழ்நிலைகளைப் புரிந்து கொள்ள உதவுகிறது. இக்காரணத்தால் 2017 மே மாதத்தில் கூகிள் வெளியிட்ட ஆங்கிலம்-தமிழ் மொழிபெயர்ப்பில் வாக்கிய அமைப்பு முன்னை விட நன்றாக இருப்பதைக் காணலாம்.

இணையத் தொடர்பு இல்லாத போதும் மொழிபெயர்க்கலாம். ஆனால் இதற்கு முன்னால் இணையத் தொடர்பு இருக்கும் இடத்தில் மொழித்தொகுப்பை நீங்கள் பதிவிறக்கி வைத்திருக்க வேண்டும். ஆனால் மற்ற செயலிகளிலிருந்து நிரலாக்க இடைமுகம் (API) மூலம் அனுப்பி மொழிபெயர்ப்பை வாங்க வேண்டுமென்றால் கட்டணம் உண்டு.

கூகிள் சொல் வில்லை

கூகிள் சொல் வில்லை

கூகிள் சொல் வில்லை

மொழிபெயர்ப்பி செயலியைப் பயன்படுத்தும் போது, பயனர்கள் தங்கள் நிழற்படக் கருவியை வேற்று மொழியிலுள்ள ஒரு சாலைக் குறியீட்டிலோ அல்லது உணவுப் பட்டியல் போன்ற உரையிலோ சுட்டிக்காட்டலாம். இணைய இணைப்பு இல்லாதபோதிலும் மொழிபெயர்க்கப்பட்ட உரையைப் பார்க்க முடியும்.

கூகிள் உரையாடல் செயலி

பல்வேறு மொழிகளில் உரையாடல்களைப் புரிந்துகொள்வதற்கான ஒரு மொழிபெயர்ப்புக் கருவியை கூகிள் அறிமுகப்படுத்தியுள்ளது. கூகிள் மொழியாக்கம் செயலியில், உரையாடல் முறையில் நுழைய வேண்டுமானால் பயனர்கள் மைக்கைத் தட்டலாம். இது உரையாடலில் இருவரும் என்ன மொழியில் பேசுகிறார்கள் என்று தானாகவே புரிந்து கொள்ளும். எடுத்துக்காட்டாக, நீங்கள் சுற்றுலா போன இடத்தில் சந்தையில் பேரம் பேச வேண்டுமானால், இந்த உரையாடல் முறை உங்களுக்கு உள்ளூர் மக்களுடன் உரையாட உதவும். இது முதலில் இந்திக்கு வேலை செய்தது. 2017 செப்டம்பரில் வங்காளம் மற்றும் தமிழ் மொழிகளைச் சேர்த்தார்கள்.

கூகிள் உரை ஒலி மாற்றி

கூகிள் உரை ஒலி மாற்றி என்பது ஆண்ட்ராய்டுக்காக அவர்கள் உருவாக்கிய திரை படிப்பி செயலி ஆகும். இது திரையில் இருக்கும் உரையை உரக்கப் படிக்கும். தற்போது இந்திய மொழிகளில் தமிழ், இந்தி மற்றும் வங்காளம் உட்பட கூகிள் உரை ஒலி மாற்றி 41 மொழிகளை ஆதரிக்கிறது. தமிழ் இன்னும் வரக்காணோம்.

கூகிள் உதவியாளர்

கூகிள் உதவியாளர் என்பது அவர்கள் உருவாக்கிய ஒரு தனிப்பட்ட மெய்நிகர் உதவியாளர். இது கை சாதனங்கள் மற்றும் திறன் வீட்டுச் சாதனங்களில் கிடைக்கிறது. இதனுடன் நீங்கள் இருவழி உரையாடல்களில் ஈடுபடலாம். இந்தி உட்பட பத்து மொழிகளில் கூகிள் உதவியாளர் கிடைக்கிறது, மேலும் ஆண்டின் இறுதியில் இது 30 க்கும் மேற்பட்ட மொழிகளில் கிடைக்கும் என்று சொல்கிறார்கள்.

பெரிய நிறுவனங்களின் இலவசத் தமிழ் சேவைகளையே நம்பி இருப்பதில் என்ன பிரச்சினை?

பெரிய நிறுவனங்கள் சேவைகளை எப்போது வேண்டுமானாலும் நிறுத்தலாம் அல்லது உங்களுக்குப் பழக்கமாகி விட்ட பின் அதற்கு விலை வைத்து விற்பனை செய்ய ஆரம்பிக்கலாம். மேலும் மூல நிரலும் தரவுகளும் நமக்குக் கிடைக்காது என்பதால் தேவைக்குத் தகுந்தாற்போல் நாம் விருப்பமைவு செய்துகொள்ளவும் இயலாது.

நாம் இலவச சேவைகளைப் பயன்படுத்தும்போது பெரிய நிறுவனங்கள் நம்மைப்பற்றிய பல அந்தரங்கத் தரவுகளைச் சேகரிக்கின்றன. இந்த அந்தரங்கத் தரவுகளை வைத்து நமக்கு என்ன பொருட்கள், சேவைகள் தேவைப்படலாம் என்று பார்த்து அதற்கான விளம்பரங்களை நமக்குக் காட்டுவதுதான் இந்நிறுவனங்களின் நோக்கம். தங்கள் சேவைகளை மேலும் துல்லியமாகச் செய்வதும் மற்றொரு நோக்கம். எடுத்துக்காட்டாக,  நாம் உணவகம் தேடும்போது, நாம் எந்த இடத்தில் இருக்கிறோம் என்று தெரிந்தால், அருகில் இருக்கும் உணவகங்களைக் காட்ட இயலும். சமீபத்தில் கேம்பிரிட்ஜ் அனலிடிகா என்ற நிறுவனம் 87 மில்லியன் பயனர்களின் அந்தரங்கத் தரவுகளை முகநூலிலிருந்து அனுமதியின்றி எடுத்துக் கொண்டதைப் பற்றி நீங்கள் படித்திருக்கக்கூடும்.பிரிட்டனிலும் மற்ற நாடுகளிலும் தேர்தலில் வேட்பாளர்களுக்கு ஆலோசனை கூற எடுத்ததாகத் தெரிகிறது. எல்லாப் பயனர்களின் பெயர்கள், பிறந்த தேதி, மின்னஞ்சல் முகவரி, கடவுச்சொல் மற்றும் பாதுகாப்பு கேள்விகளும் பதில்களும் திருடப்பட்டதாக யாஹூ முன்னர் அறிவித்தது உங்களுக்கு ஞாபகம் இருக்கலாம். ஈக்விஃபாக்ஸ், யூபர் நிறுவனங்களும் இம்மாதிரி பெரிய அளவில் தரவுகளை இழந்துள்ளன. யாவரும் கடவுச்சொல்லை மாற்ற வேண்டும் என்று சமீபத்தில் ட்விட்டர் அறிவித்துள்ளது.

இருப்பினும் நாம் தொடர்ந்து நம் வாழ்க்கையை எளிதாக்கும் இலவச தளங்களில் ஈடுபடுகிறோம். எவ்வாறாயினும், தொழில்நுட்பம் முன்னேறும்போது, நாம் வரக்கூடிய சங்கடங்கள் பற்றி ஏதும் கவலையற்றிருந்தால், முன்னெப்போதையும்விட நமக்கு இடர்ப்பாடுகளுக்கு பாதுகாப்பே இல்லாமல் போகும்.

எல்லாவற்றையும் விட மேலாக, மொழிக்கான தொழில் நுட்பக்  கட்டமைப்புகளும், தொழில் நுட்பக் கருவிகளும் பெருநிறுவனங்களின் தனிச்சொத்தாக இருப்பது மொழியின் வளர்ச்சிக்கும், மக்களுக்கும் நல்லதல்ல. ஏனெனில் இலாபத்தை அதிகமாக்குவது அவர்களுடைய நோக்கம். தமிழை வளர்ப்பதும் தமிழ் சமுதாயத்துக்கு எது நல்லதோ அதுவும்தான் நம் நோக்கம். இவை இரண்டும் எப்பொழுதுமே ஒருங்கிணைந்து வரும் என்று சொல்ல முடியாது.

———————-

இத்தொடரில் அடுத்த கட்டுரை: ஏன் திறந்த மூலமும், திறந்த தரவுகளும், திறந்த ஆய்வும்?

ஆய்வறிக்கைகள்படி இக்கருவிகளும் வளங்களும் பெரும்பாலும் உருவாக்கப்பட்டு விட்டன என்று சொல்கிறார்கள். ஆனால் மூல நிரல் கிடைக்காது, தரவுகள் பெரும்பாலும் கிடைப்பதில்லை. திறந்த மூலத்துக்கு நடைமுறை எடுத்துக்காட்டு: இந்திய தொழில்நுட்பக் கழகத்தின் உரை ஒலி மாற்றி. மொழியியலாளர்களுக்கும் மென்பொருள் உருவாக்குநர்களுக்கும் இடையே நெருங்கிய  ஒத்துழைப்பு தேவை.

%d bloggers like this: