PDF கோப்புகளில் இருந்து தமிழ் உரையை நகல் எடுக்கவும் தேடவும் உதவும் PDFA முறை

தமிழ் PDF கோப்புகளில் இருந்து உரையை நகல் எடுப்பது என்பது வெகு நாட்களாகவே சிக்கலாகவே இருந்து வருகிறது.

ஒரு தமிழ் PDF ல் இருந்து உரையை நகல் எடுத்தால் நமக்கு குழம்பிய உரை மட்டுமே கிடைக்கிறது.

உதாரணம் –

உலககேம உற்று கே ாக்கும் ஒரு அற்புதச் சுற்றுலாத் தலமாக அந்தமான் அழகு தீவுகள் உள்ளன .
வாழ்க்கைகயில் ஒரு முகை(கே)னும் அந்தமான் அழகு தீவிற்குச் செ-ன் அழகுறு வர கேவண்டும்
.
பூமியின் அழகு
செ-ார்க்கம் என அந்தமான் அழகு தீவுககைள சிலர் கூறுகின் அழகு(னர் . செ-ார்க்கம் என் அழகுபது எப்படிப்பட்டது
என் அழகுபது )ாருக்கும் செதரி)ாது . ஆனால் அந்தமான் அழகு தீவுகள் இ)ற்கைக வளம் நிகை(ந்த
தீவுககைளக் செகாண்டுள்ளது . மனிதச் சுரண்டலுக்கு ஆட்படாத பல தீவுகள் இருக்கின் அழகு(ன .
எந்தப்பக்கம் செ-ன் அழகு(ாலும் கடலும் , தீவுகளுகேம செதரிகின் அழகு(ன . நீலக்கடலுக்கு இகைடகே) பச்கை-
நி(ம் செகாண்ட தீவுகள் ரசிக்கும்படி)ாக இருக்கின் அழகு(ன . இங்கேக அகைமதி)ான மாசுபடாத ,
செவண்மணல் செகாண்ட
கடற்ககைரகை)க் காணலாம் .
அரி)
தாவரங்கள் ,
விலங்குகள் ,
ப(கைவகள் என பல்லுயிர் வளம் மிக்க பகுதி)ாக அந்தமான் அழகு தீவுகள் விளங்குகின் அழகு(ன

ஆனால், ஆங்கில PDF ல் இந்த சிக்கல் இல்லை. உரை உள்ளது உள்ளவறே நகல் எடுக்க முடிகிறது.

தமிழில் ஏன் வரவில்லை? இதற்கு பல்வேறு காரணங்கள் சொல்கிறார்கள். யுனிகோடில், Rendering Engine ல், PDF standard ல். என பல்வேறு காரணங்கள்.

இதற்கான தீர்வை ஆய்ந்து வந்தோம். தேடல்களை இங்கு எழுதி வந்தோம்.
github.com/KaniyamFoundation/ProjectIdeas/issues/78

இன்று PDF பற்றி படித்துக் கொண்டிருந்த போது, PDF/A என்ற ஒரு சொல் புலப்பட்டது. அது பற்றி மேலும் படிக்கும் போது, Searchable PDF, Archive, Unicode support ஆகியவை சேர்க்கப் பட்டுள்ளன என்று அறியலாம். இ்ங்கே காண்க – en.wikipedia.org/wiki/PDF/A

இதை உடனே LibreOffice Writer ல் சோதித்தேன். PDF ஆக Export செய்யும் போது, PDF/A2-b என்பதை தெரிவு செய்தால், கிடைக்கும் PDF கோப்பு Searchable PDF ஆக கிடைக்கிறது. அதில் ஒருங்குறியில் தேடலாம். மேலும், உரையை நகல் எடுத்தால் உள்ளது உள்ளவாறே அப்படியே கிடைக்கிறது.

 

உலகமே உற்று நோக்கும் ஒரு அற்புதச் சுற்றுலாத் தலமாக அந்தமான்
தீவுகள் உள்ளன . வாழ்க்கையில் ஒரு முறையேனும் அந்தமான் தீவிற்குச் சென்று
வர வேண்டும் . பூமியின் சொர்க்கம் என அந்தமான் தீவுகளை சிலர்
கூறுகின்றனர் . சொர்க்கம் என்பது எப்படிப்பட்டது என்பது யாருக்கும் தெரியாது .
ஆனால்
அந்தமான்
தீவுகள்
இயற்கை
வளம்
நிறைந்த
தீவுகளைக்
கொண்டுள்ளது . மனிதச் சுரண்டலுக்கு ஆட்படாத பல தீவுகள் இருக்கின்றன .
எந்தப்பக்கம் சென்றாலும் கடலும் , தீவுகளுமே தெரிகின்றன . நீலக்கடலுக்கு
இடையே பச்சை நிறம் கொண்ட தீவுகள் ரசிக்கும்படியாக இருக்கின்றன . இங்கே
அமைதியான மாசுபடாத , வெண்மணல் கொண்ட கடற்கரையைக் காணலாம் .
அரிய தாவரங்கள் , விலங்குகள் , பறவைகள் என பல்லுயிர் வளம் மிக்க பகுதியாக
அந்தமான் தீவுகள் விளங்குகின்றன . கடற்கரை ஓரத்திலேயே பல வண்ணம்
கொண்ட பவளப் பாறைகளையும் , அதன் ஊடே நீந்திக் திரியும் பல வண்ண
மீன்களையும் ரசிக்க ஏற்ற இடம் . இயற்கை அழகோடு வரலாற்றுச் சிறப்பு மிக்க
பல இடங்களும் உள்ளன . அந்தமான் பயணத்தில் முழுக்க , முழுக்க சுற்றுலா
அனுபவத்தைப் பெறலாம் .

 

image

 

இதைப் பற்றிய விளக்க காணொளி இங்கே.

நீங்கள் உங்கள் கோப்புகளை PDF ஆக மாற்றும் போது, உங்கள் மென்பொருளில் PDF/A என்பதை மறக்காமல் தெரிவு செய்க.

நீண்ட காலத் தேடலுக்கு தீர்வு தந்த LibreOffice Writer பங்களிப்பாளர்களுக்கு நன்றிகள்.

PDFA பற்றி மேலும் அறிய,

www.pdf-tools.com/pdf20/en/resources/pdf-iso-standards/10-most-important-things-about-pdfa/

Click to access PDFA_in_a_Nutshell_211.pdf

%d bloggers like this: