தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 17. உரையும் பேச்சும் கொண்ட மொழித்தொகுப்பு

மொழியியல் பகுப்பாய்வுக்கு அடிப்படையாக இருக்கும், உரையும் பதிவு செய்த பேச்சும் கொண்ட தொகுப்புகளை, மொழித்தொகுப்பு (corpus) என்று சொல்கிறோம்.

ஆங்கில மொழித்தொகுப்புகளின் வரலாறு

100 மில்லியன் சொற்கள் கொண்ட பிரிட்டானிய நாட்டு மொழித்தொகுப்பு (BNC), பர்மிங்ஹாம் மொழித்தொகுப்பு, லன்காஸ்டர் ஆங்கில பேச்சுத் தொகுப்பு முதலிய தொகுப்புகள் ஆங்கில மொழிக்குப் பிரபலமானவை. இருமொழி மொழித்தொகுப்புகள் இரண்டு மொழிகளின் மொழிபெயர்ப்பைக் கொண்டிருக்கும். ஐரோப்பிய ஒன்றிய முன்முயற்சி (ECI) பலமொழித்தொகுப்பு ஆகும். இது துருக்கிய, ஜப்பானிய, ரஷ்ய, சீன மற்றும் பிற மொழிகளில் 98 மில்லியன் சொற்களைக் கொண்டுள்ளது.

COBUILD ஆங்கில மொழித்தொகுப்பு

COBUILD என்பது 1980 ஆம் ஆண்டில், காலின்ஸ் பதிப்பு நிறுவனமும் பர்மிங்காம் பல்கலைக்கழகமும் இணைந்து நிறுவிய ஆராய்ச்சி மையமாகும். இத்திட்டத்தின் மிக முக்கியமான சாதனை சமகால உரைகளின் மின்னணுத் தொகுப்பான காலின்ஸ் உரைத்தொகுப்பு உருவாக்கம் மற்றும் பகுப்பாய்வு ஆகும். பின்னர் இது ஆங்கில வங்கி உரைத்தொகுப்பு வளர்ச்சிக்கும் வழிவகுத்தது. பல அகராதிகள் மற்றும் இலக்கண நூல்களும் வெளியிடப்பட்டுள்ளன. இவை அனைத்துமே ஆங்கில வங்கி உரைத்தொகுப்பு ஆதாரங்களை அடிப்படையாகக் கொண்டவை.

இந்த COBUILD உரைத்தொகுப்பு 4.5 பில்லியன் சொற்கள் கொண்ட ஆங்கில உரைகளின் தொகுப்பு. இவை பெரும்பாலும் பிரிட்டானிய உரைகள். ஆனால் வட அமெரிக்கா, ஆஸ்திரேலியா, நியூசிலாந்து, தென்னாப்பிரிக்கா மற்றும் பிற காமன்வெல்த் நாடுகளிலிருந்தும் உள்ளடக்கம் சேர்க்கப்பட்டுள்ளது. பெரும்பாலான உரைகள் வலைத்தளங்கள், பத்திரிகைகள், இதழ்கள் மற்றும் புத்தகங்கள் ஆகியவற்றிலிருந்து சேகரிக்கப்பட்ட ஆங்கில மொழியில் எழுதப்பட்ட உரைகளாகும். ஆனால் வானொலி, தொலைக்காட்சி மற்றும் இயல்பான உரையாடல்களிலிருந்தும் பேச்சுகள் பதிவு செய்யப்பட்டு உள்ளன. ஆங்கில வங்கியில் மொத்தம் 650 மில்லியன் சொற்கள் உள்ளன. பதிப்புகள் ஹார்பர் காலின்ஸ் வெளியீட்டாளர்கள் மற்றும் பர்மிங்காம் பல்கலைக்கழகம் ஆகிய இரண்டிலும் உள்ளன. பர்மிங்காமில் உள்ள பதிப்பை கல்வி சார்ந்த ஆராய்ச்சிக்கு அணுகலாம்.

பிரிகேம் யங் பல்கலைக்கழகத்தில் மொழியியல் பேராசிரியரான மார்க் டேவிஸ் சமகால அமெரிக்க ஆங்கில மொழித்தொகுப்பை (COCA) உருவாக்கினார். இது 160,000 க்கும் அதிகமான உரைகளிலிருந்து சுமார் 560 மில்லியன் சொற்களை உள்ளடக்கியது. 1990 முதல் ஒவ்வொரு ஆண்டும் இதில் 20 மில்லியன் சொற்களைச் சேர்க்கிறார்கள். ஒவ்வொரு மாதமும் இதைப் பல்லாயிரக்கணக்கானோர் பயன்படுத்துகின்றனர். எனவே தற்போது மிகவும் பரவலாக பயன்படுத்தப்படும் மொழித்தொகுப்பு என்று இதைச் சொல்லலாம்.

85 மில்லியன் சொற்கள் பேச்சு, 81 மில்லியன் சொற்கள் புனைகதை,  86 மில்லியன் சொற்கள் பிரபலமான இதழ்களிலிருந்து, 81 மில்லியன் சொற்கள் செய்தித்தாள்களிலிருந்து. 81 மில்லியன் சொற்கள் கல்வி சார்ந்தப் பத்திரிகைகளிலிருந்து. அமெரிக்க காங்கிரஸ் நூலகம் உரைகளை சட்டம், கல்வி, அறிவியல், தொழில்நுட்பம், மருத்துவம், வேளாண்மை, இசை போன்று வகைப்பாடு செய்கிறது. இந்த முறையின் முழு வரம்பையும் உள்ளடக்குமாறு இந்த உரைகள் தேர்ந்தெடுக்கப்பட்டன.

தமிழ் உரைத்தொகுப்பு

தமிழ் உரைத்தொகுப்பு

தமிழ் மொழித்தொகுப்புகள்

மைசூர் மத்திய இந்திய மொழிகள் கழகத்தில் 3 மில்லியன் சொற்கள் கொண்ட தமிழ் உரைத்தொகுப்பு ஒன்று கிடைக்கிறது. கல்வியாளர்களுக்கும் கல்வி நிறுவனங்களுக்கும் இலவசமாக  விநியோகிக்கப்படுகிறது. பதிவிறக்கம் கிடையாது, எழுதிக் கேட்க வேண்டும். இருப்பினும், எதிர்காலத்தில் இந்நிறுவனம் இந்திய மொழிகளில் கட்டணம் வாங்கிப் பல்வேறு வகையான வளங்களை வழங்க முடியும் என்று சொல்கிறார்கள்.

அமெரிக்காவில் பென்சில்வேனியா பல்கலைக்கழகத்தால் நடத்தப்படும் மொழியியல் தரவு கூட்டமைப்பு (LDC – Linguistic Data Consortium) ஒரு சிறந்த முன்மாதிரி எடுத்துக்காட்டு. இது ஆராய்ச்சி மற்றும் மேம்பாட்டு நோக்கங்களுக்காக பேச்சு மற்றும் உரை தரவுத்தளங்கள், சொற்களஞ்சியம் மற்றும் பிற ஆதாரங்களை உருவாக்குகிறது, சேகரிக்கிறது மற்றும் விநியோகிக்கிறது, இது பல்கலைக்கழகங்கள், நிறுவனங்கள் மற்றும் அரசு ஆய்வுக்கூடங்களின் திறந்த கூட்டமைப்பு ஆகும். ஆகவே இதேபோன்று இந்திய மொழிகளில் மொழியியல் தரவுக் கூட்டமைப்பு (LDCIL – Linguistic Data Consortium in Indian Languages) ஒன்றை அமைக்க திட்டமிடப்பட்டு வருவதாகச் சொல்கிறார்கள்.

சிறுபான்மை மொழி பொறியியல் செயல்படுத்தல் திட்டத்தின் (Enabling Minority Language Engineering) கீழ் எமிலி (EMILLE) மொழித்தொகுப்பு இங்கிலாந்தின் லங்காஸ்டர் பல்கலைக்கழகம் மற்றும் இந்திய மொழிகள் மத்தியக் கழகம் (CIIL) ஆகியவற்றுக்கிடையே ஒரு கூட்டு முயற்சியாக 2003 இல் உருவாக்கப்பட்டது.

எமிலி தமிழ் உரைத்தொகுப்பில் சுமார் 20 மில்லியன் சொற்கள் உள்ளன. தினகரன் இணைய தளத்திலிருந்து திரைப்படங்கள் பற்றிய செய்திகள் சுமார் ஒரு மில்லியன் சொற்கள். செய்திகள் சுமார் 9 மில்லியன் சொற்கள். மற்ற கட்டுரைகள் சுமார் ஒரு மில்லியன் சொற்கள். அரசியல் பற்றிய செய்திகளும் மற்றும் விமர்சனங்களும் சுமார் 5 மில்லியன் சொற்கள். விளையாட்டு பற்றிய செய்திகளும் மற்றும் விமர்சனங்களும் சுமார் ஒரு மில்லியன் சொற்கள். மைசூர் மத்திய இந்திய மொழிகள்  கழகத்தின் மூலம் 3 மில்லியன் சொற்கள். இது ஐரோப்பிய மொழி வளங்கள் சங்கத்தால், இலாப நோக்கற்ற ஆய்வுகளில் பயன்படுத்த இலவசமாக விநியோகிக்கப்படுகிறது

ஐரோப்பா செக் குடியரசில் ப்ராக் நகரில் உள்ள சார்லஸ் பல்கலைக்கழகத்தில் லோகநாதன் ராமசாமி வாக்கியங்களை நேரமைத்த ஒரு ஆங்கிலம் தமிழ் இருமொழித் தொகுப்பு தயாரித்தார். என்டாம் (EnTam) என்ற பெயரிலுள்ள இந்த மொழித்தொகுப்பில் விவிலிய நூல்,  திரைப்படங்கள் மற்றும் செய்திகள் ஆகியவற்றிலிருந்து சுமார் 170,000 வாக்கியங்கள் உள்ளன.

தமிழ் விக்கிப்பீடியா உரைத்தொகுப்பு

விக்கிப்பீடியா மற்றும் அதன் குழு தளங்களில் இருந்து நான் ஒரு தமிழ் உரைத்தொகுப்பு தயார் செய்துள்ளேன். இந்த உரைத்தொகுப்பில் சுமார் 6 மில்லியன் சொற்கள் உள்ளன. தமிழ் விக்கிப்பீடியாவிலிருந்து சுமார் 3.8 மில்லியன் சொற்கள். இவை அறிவியல், கணிதம், சமூகம், தமிழ், தொழினுட்பம், நபர்கள், பண்பாடு, புவியியல், வரலாறு ஆகிய பகுப்புகளில் உள்ளன. விக்கிமூலத்திலிருந்து, தற்காலத் தமிழ் எழுத்தாளர் உரைநடைப் படைப்புகள் மட்டும், சுமார் 1.7 மில்லியன் சொற்கள். இவை அண்ணாதுரை – ரங்கோன் ராதா, மு. வரதராசன் – அகல் விளக்கு, ரெ. கார்த்திகேசு – அந்திம காலம், கல்கி – பொன்னியின் செல்வன், கல்கி – பார்த்திபன் கனவு, கல்கி – சிவகாமியின் சபதம், கல்கி – அலை ஓசை, கல்கி – தியாக பூமி, கல்கி – மற்ற நாவல்கள், கல்கி – சிறுகதைகள்‎, புதுமைப்பித்தன் – சிறுகதைகள், ஜெயகாந்தன் – சிறுகதைகள், பல ஆசிரியர்கள் – சிறுகதைகள், பல ஆசிரியர்கள் – கட்டுரைகள் ஆகிய பகுப்புகளில் உள்ளன. விக்கி செய்தியிலிருந்து சுமார் 0.4 மில்லியன் சொற்கள் மற்றும் விக்கி நூல்களிலிருந்து சுமார் 17 ஆயிரம் சொற்கள் உள்ளன. எவரும் இதை எளிதாகப் பதிவிறக்கம் செய்து பயன்படுத்த முடியும்.

பதிப்பாசிரியர்களால் தொகுக்கப்பட்ட உரைகளே மொழித்தொகுப்புக்குச் சிறந்தவை. இவை நல்ல வாக்கிய அமைப்பு கொண்டு இலக்கணப்படியும், பிழையற்றதாகவும் இருக்கும். மேலும் இவை நடப்பு மொழியில் இருக்க வேண்டும். நடைமுறையில் இல்லாத பழங்கால உரைகளாகவோ அல்லது கவிதைகளாகவோ இருக்கக்கூடாது. ஏனெனில் கவிதைகள் உரை விதிமுறைப்படி அமைவதில்லை. நமக்கு முழு வாக்கியங்கள்தான் தேவை. தலைப்புகள், பட்டியல்கள், அட்டவணைகள் ஆகியவற்றில் வாக்கியத் துண்டுகள் இருந்தால் பார்த்து நீக்கிவிடவேண்டும். வேற்று மொழிச்சொற்கள், கணித சூத்திரங்கள் போன்றவை வரும் வாக்கியங்களையும் நீக்கிவிடவேண்டும்.

உரைத்தொகுப்பு பகுப்பாய்வு செய்யும் கருவி

உரைத்தொகுப்புகள் மில்லியன் கணக்கான சொற்கள் அடங்கியவை. அவற்றைப் படிக்கவும், அவற்றில் சொற்களைத் தேடவும் மற்றும் ஆய்வு செய்யவும் சிறப்பு மென்பொருள் கருவிகள் தேவை. ஆங்கில திறந்த மூல உரைத்தொகுப்புக் கருவிகள் எதுவும் தமிழைச் சரியாகக் கையாளவில்லை. ஆனால் பிரெஞ்சு குழு உருவாக்கிய TXM தமிழுக்கு நன்றாக வேலை செய்கிறது. இது திறந்த மூல மென்பொருள். லினக்ஸ், மேக் மற்றும் விண்டோஸ் கணினிகளில் வேலை செய்யும். மிகப்பெரிய உரைத்தொகுப்புகளையும் கையாள இயலும். மொத்த சொற்குறிகள் (சொற்களும் நிறுத்தற்குறிகளும்) எண்ணிக்கை, மொத்த சொற்கள் எண்ணிக்கை, தனித்தன்மை வாய்ந்த சொற்குறிகள் எண்ணிக்கை, தொகுப்பில் ஒவ்வொரு சொல்லின் எண்ணிக்கை முதலிய புள்ளிவிவரங்களைத் தரும். மேலும் சொற்களும் அவற்றின் சூழலும் பற்றிய பகுப்பாய்வு (Concordance Analysis), இரண்டு சொற்கள் இணை நிகழ்வு (Cooccurrences) போன்ற பல வேலைகளையும் செய்ய முடியும்.

————–

இத்தொடரில் அடுத்த கட்டுரை: சொல்வகைக் குறியீடும் குறியிட்ட உரைத்தொகுப்புகளும்

சொல்வகைக் குறியீடு‍‍‍‌‍‌ தொகுப்புகள் (Tagset). ஆங்கில சொல்வகைக் குறியிடும் கருவிகள் (POS taggers). தமிழ் சொல்வகைக் குறியிடும் கருவிகள். கைமுறையாக சொல்வகைக் குறியீடு செய்த உரைத்தொகுப்புகள்.

%d bloggers like this: