யூனிகோடில் ”விரிவாக்கப்பட்ட தமிழ்” – சில விளக்கங்கள்

இணையத்தில் தமிழ் உலாவரத் தொடங்கிய காலகட்டத்தில் பல்வேறுவிதமான எழுத்துருக்கள் (encoding) புழங்கின. இதனால் ஒவ்வொரு இணையதளத்தையும் படிப்பதற்கு அந்தந்த தளம் பயன்படுத்தும் எழுத்துவடிவத்தை (font) தரவிறக்கிக் கொண்டாக வேண்டும் என்ற தொல்லை இருந்தது. ஆரம்பகால இணையத் தமிழ்ப் பயனாளிகள் இப்போது கூட ஒரு கொடுங்கனவாக அதை எண்ணிப் பார்க்கக் கூடும்.

You could probably buy the same amount of hair cuts at a. The cost atarax medicine price of medications, however, will always be dependent on other things. In some circumstances, however, the medication might be needed for a long time to be effective, such as when an opioid overdose results in an increased risk of death from respiratory or cardiovascular causes.

Zithromax tablets are a generic form of chloroquine, which is one type of medicine used to treat malaria. So, i got on my knees and prayed that god would allow my baby boy to be born with his eyes https://furniture-refinishing-guide.com/articles/creating-woodworm-holes-in-furniture-for-an-authentic-antique-look/ closed, and i was going to be the woman that i knew i would become someday, and the man that my boy would be, because my baby boy would be born into a world without any hope of life. However, tamoxifen has not been shown to be beneficial in patients with breast cancer.

If these do not return to their previous levels within 8 weeks it is probably a chronic constipation. A common mistake is to take viagra and also not eat https://3drevolutions.com/broken_toilet_seat/ anything else at that meal. Then our friends would give us their brand name tablets at a lower price.

letter_chart1 பிறகு, உலக அளவில் ஆங்கிலம் அல்லாத பற்பல உலக மொழிகளையும் கூட இலகுவாக கணினியில் பயன்படுத்த பொதுவாக யுனிகோட் என்ற எழுத்துரு புழக்கத்தில் வந்தது. மைக்ரோசாஃப்ட், கூகிள் போன்ற நிறுவனங்களும் யுனிகோட் எழுத்துருவுடன் இயைந்திருக்குமாறு (compatible) தாங்கள் உருவாக்கும் மென்பொருட்களை வடிவமைத்து வருகின்றன. யுனிகோட் பயன்பாட்டுக்கு வந்த பின்பு தான் இணையத் தமிழில் பெரும் மலர்ச்சி ஏற்பட்டது என்று கூறலாம். இன்றைக்கு இந்திய மொழிகளிலேயே மிக அதிகமாக, ஏன் ஹிந்தியை விடக் கூட அதிகமாக வலைத்தளங்கள் தமிழில் தான் உள்ளன என்று ஒரு புள்ளிவிவரம் தெரிவிக்கிறது. தமிழக அரசும் யுனிகோட் எழுத்துருவையே இணையத் தமிழ்ப் பயன்பாட்டிற்காக தனது தேர்வாக அங்கீகரித்துள்ளது.

தமிழ் யுனிகோட் எழுத்துருவின் பயன்பாட்டை இன்னும் விரிவாக்கும் முகமாக இன்னும் சில எழுத்துக் குறியீடுகளை சேர்த்து “விரிவாக்கப் பட்ட தமிழ்” (extended Tamil) என்ற எழுத்துருவையும் புழக்கத்தில் கொண்டு வர வேண்டும் என்று தமிழ் மென்பொருள் ஆர்வலர்கள் சிலர் யுனிகோட் நிர்வாகத்திற்கு யோசனை தெரிவித்துள்ளனர். யூனிகோடு நிர்வாகக் குழுவினருக்கு அனுப்பப்பட்ட “விரிவாக்கப்பட்ட தமிழ்” என்கோடிங்க் தொடர்பாக பல குழப்பங்கள் நிகழ்ந்து வரும் காரணத்தினால், அது குறித்து சில அடிப்படையை விளக்கங்கள் தரப்பட வேண்டி உள்ளது. இது தொடர்பான தொழில்நுட்ப விஷயங்களையும் வரலாற்று ரீதியான கருத்துக்களையும் விவரமாக காண்போம்.

தற்சமயத்தில் இணையம் எங்கும் தமிழ் யூனிகோடு கோடு சார்ட்டில் (Unicode Code Chart) தமிழில் கூடுதலாக 26 கிரந்த எழுத்துக்கள் சேர்க்கபப்டுவதற்கான முயற்சிகள் நடைபெறுவதாக சில தேவையற்ற குழப்பங்கள் நிலவி வருகின்றன. “விரிவாக்கப்பட்ட தமிழ்” என்பது ஒரு தனி விஷயம் இதற்கும் கிரந்தத்துக்கும் சம்பந்தமே இல்லை. இது போன்ற குழப்பங்களுக்கு, “விரிவாக்கப்பட்ட தமிழுக்கான” யூனிகோடு முன்மொழிவை திறந்து கூட பார்க்காதது தான் காரணம் என்று தெள்ளத்தெளிவாக தெரிகிறது. அதில் மிகத்தெளிவாகவே, முன்மொழியப்பட்ட “விரிவாக்கப்பட்ட தமிழ்” அட்டவணையில் துணைஎண்களுடன் கூடிய தமிழ் எழுத்துக்கள் தான் உள்ளன.

கிரந்த எழுத்துமுறையானது பாரம்பரியமாக சமஸ்கிருதத்தை எழுத பெருமளவு பழங்காலத்தில் பயன்பாட்டில் இருந்தது, பழங்கால தமிழர்கள் கிரந்த லிபி கொண்டே சமஸ்கிருதத்தை கற்றனர். நம்முடைய பழைய கல்வெட்டுகளில் பலவற்றிலும் கிரந்த லிபி உள்ளது. கிரந்த லிபியானது இப்போதும் கூட சிறு அளவில் இன்னும் பயன்படுத்தப்பட்டு வருகிறது. தமிழிலிருந்து தனிப்பட்ட எழுத்துமுறை அது. அதை தனியாகத்தான் யூனிகோடில் ஏற்ற முடிவு செய்யப்பட்டு, அதற்கான முயற்சிகள் மேற்கொள்ளப்பட்டு வருகின்றன. நம்முடைய பாரம்பரிய கிரந்த லிபியானது இன்னும் ஏறக்குறைய ஓராண்டில் யூனிகோடில் ஏறிவிடும். கிரந்த லிபியானது தமிழ் யூனிகோடுக்கு சம்பந்தமற்றதாக தனியாக யூனிகோடில் ஏறவிருக்கிறது. இத்தோடு கிரந்த சம்பந்தம் முற்றிற்று.

grantha_inscription

((முதற்பதிப்பில் இந்த பத்தி விடுபட்டு விட்டது)) கிரந்த எழுத்துமுறைக்கான முன்மொழிவை யூனிகோடு நிறுவனத்திடம், சென்ற ஆண்டு அளித்த போது, மேற்கத்தியர் ஒருவர், ஏன் கிரந்தத்தையும் தமிழையும் ஒன்றிணைக்கக்கூடாது, தமிழ் யூனிகோடில் நிறைய காலி இடங்கள் உள்ளனவே, ஏன் தேவை இல்லாமல் கிரந்தத்தை தனியாக யூனிகோடில் ஏற்றப்பட வேண்டும் என்ற பரிந்துரையை யூனிகோடு நிறுவனத்திடம் சமர்பித்தார். அப்போதே, அதை மறுத்து, சில எழுத்துக்கள் இரண்டுக்கும் பொதுவாக இருந்தாலும், தமிழ் லிபியும் கிரந்த லிபியும் ஒன்றல்ல இரண்டும் வெவ்வேறான பாரம்பரிய லிபிகள். எனவே தமிழில் இருந்து தனியாகத்தான் கிரந்தம் யூனிகோடில் இணைக்கப்பட வேண்டும் என்று உடனே மறுமொழி, இதே விரிவாக்கப்பட்ட தமிழை முன்மொழிந்த தரப்பினால், யூனிகோடிடம் கொடுக்கப்பட்டது, தனியாகவே கிரந்தம் இப்போது யூனிகோடில் சேர்க்கப்படவிருக்கிறது.

இந்த நிகழ்வை யூனிகோடு நிறுவனத்தில் உறுப்பினராக உள்ளவர்களும் கிரந்த லிபியை யூனிகோடில் சேர்க்க பிரயத்னம் செய்தவர்களும் நன்றாக அறிவர். உண்மையாகவே 26 கிரந்த எழுத்துக்கள் தமிழில் சேர்க்கப்படக்கூடிய சாத்தியம் இருந்த அப்போதெல்லாம் ஆட்டேபம் தெரிவிக்காமல், ஊருக்குள் அமைதியாக இருந்துவிட்டு, இன்னொருவர் கிளப்பி புதைத்து புல் முளைத்த இவ்விஷயத்தை சம்பந்தா சம்ப்ந்தம் இல்லாமல் இப்போது கிளப்புவுது ஏன் என்பது புரியாத புதிர். இந்த “விரிவாக்கப்பட்ட தமிழ்” முன்மொழிவானது கடந்த மாதம் ஜூலை அனுப்பப்பட்டு, யூனிகோடு தொழில்நுட்ப குழுவினரின் பரிசீலனைக்கும் சென்றது. இதுவும் யூனிகோடு உறுப்பினர்களாக உள்ளவர்களுக்கு நிச்சயம் தெரிந்த விஷயம். அப்போதே கூட தொழில்நுட்ப ரீதியான ஆட்சேபனைகள் ஏதேனும் இருப்பின் தெரிவித்திருக்கலாம், அப்போது தெரிவிக்காது இப்போது இல்லாத ஒன்றை (26 கிரந்த எழுத்துக்களை தமிழில் சேர்த்தல்) முன்னிறுத்தி ஆட்சேபிப்பது ஏனென்று அறியேன்.

இனி “விரிவாக்கப்பட்ட தமிழுக்கு” (Extended Tamil) வருவோம். மற்ற இந்திய எழுத்துமுறைகளை போல் அல்லாது தமிழில் kha, gha, jha, dha, ba போன்ற எழுத்துக்களுக்கு வடிவமில்லை. ஆகவே, தமிழில் சமஸ்கிருதம் உட்பட்ட பிற இந்திய மொழிகளை மூல உச்சரிப்பு மாறாமல் அச்சிட விரும்பியவர்கள், தமிழ் எழுத்துக்களுடன் 2,3,4 முதலிய எழுத்துக்களை சேர்த்து க² க⁴ ஜ² த⁴ ப³ என்றவாறு தமிழில் இல்லாத வர்க்க எழுத்துக்களை குறிக்க பயன்படுத்தினர். பல ஆண்டுகளாக இது வழக்கில் உள்ள ஒரு முறை. இது இலத்தீன் எழுத்துக்களை grave, accent, caret போன்ற துணைக்குறியீடுகளை இணைத்து புதிய ஒலிகளை குறிப்பிடுவது போலத்தான். உதாரணமாக, e என்ற எழுத்து è é ê ë xஎன்றவாறாக பல்வேறு துணைகுறியீடுகளை ஏற்றுக்கொண்டு பல்வேறு ஒலிகளை வெளியிடுவது போல. இதே போல், தமிழிலும் துணைஎண்களுடன் கூடிய இது போன்ற எழுத்துக்களையே, தமிழ் அட்டவணையில், ஒரு “விரிவாக்கப்பட்ட தள”த்தை உருவாக்கி, அதில் இவ்வெழுத்துக்களை சேர்க்க வேண்டுகோள் விடுக்கப்பட்டது.

இலத்தீன் எழுத்துமுறை ஆங்கிலம் உட்பட உலகின் பல்வேறு மொழிகளை குறிக்க பயன்படுத்தப்படுகிறது. ஆகவே, ஒவ்வொரு மொழிக்கும் ஏற்றவாறு, துணைக்குறிகளுடன் கூடிய எழுத்துக்களையும் இன்ன பிற புது எழுத்துக்களையும் சேர்த்துக்கொண்டது. அடிப்படை எழுத்துக்களை மீறிய இதுபோன்ற துணைக்குறிகள் கொண்ட கூடுதல் எழுத்துக்கள் பல்வேறு விரிவாக்கப்பட்ட யூனிகோடு பகுதிகளில் சேர்க்கப்பட்டது. இலத்தீன் எழுத்துமுறைக்கு, LATIN-1 SUPPLEMENT, LATIN EXTENDED-A, LATIN EXTENDED-B , LATIN EXTENDED-C, LATIN EXTENDED-D, LATIN EXTENDED ADDITIONAL என்றவாறும், ரஷ்ய சிரில்லிக் எழுத்துமுறையில் CYRILLIC SUPPLEMENT , CYRILLIC EXTENDED-A CYRILLIC EXTENDED-B என்றவாறும், ஜப்பானிய மொழியை எழுதுவதையே பிரதானமாக கொண்ட ஜப்பானிய எழுத்துக்களுக்கு கூட சிறுபாண்மை மொழியான ஐனு மொழியை எழுத, Katakana Phonetic Extensions என தனியே கூடுதல் எழுத்துக்கள் சேர்க்கப்பட்டுள்ளன.

ஏன், யூனிகோடின் தேவாநாகரி அடிப்படை அட்டவணையில் கூட சமஸ்கிருத ஒலிகளை மட்டும் அல்லாது, எ, ஒ, ற, ழ, ள, ன போன்ற திராவிட மொழி ஒலிகளுக்கான எழுத்துக்களும், சிந்தி, காஷ்மீரி மொழிகளை எழுதுவதற்காக பயன்படுத்துப்படும் எழுத்துக்களும் இணைக்கப்பட்டுள்ளன. இதனால் எந்த மாத்திரத்திலும் சமஸ்கிருதம் சீரழிந்து விடவில்லை. பாணினி எழுந்து வந்து, “நான் இலக்கணம் சமைத்த மொழியில் ஏன் திராவிட காஷ்மீரி புல்லுருவித்தனத்தை அனுமதித்தாய் ?” என்று யூனிகோடு நிறுவனத்திடம் சண்டையும் போடப்போவதில்லை. இதனால் சமஸ்கிருதம், ஹிந்தி முதலான வடமொழி கணினி முயற்சிகளோ, அல்லது மென்பொருள் செயல்பாடுகளோ செயலற்று போய்விடவில்லை. சமஸ்கிருதம் மற்றும் பிற வட மொழிகளை எழுதுவோர் அவ்வெழுத்துக்களை பயன்படுத்தப்போவதில்லை, அவ்வளவுதான்.

tatvavivechani1

காஷ்மீரி மொழியை எழுத முனைவோர் தங்களுக்கு தேவையான எழுத்துக்களை பயன்படுத்தப்போகின்றனர். இன்னும் ஏன், 19ஆம் நூற்றாண்டு மேற்கத்திய மொழியியலாளர்கள் சிருஷ்டித்த புதிய தேவநாகரி வடிவங்கள் மற்றும் அவெஸ்தன் மொழியை எழுதுவதற்கு தேவையான எழுத்துக்கள் கூட தேவநாகரி யூனிகோடில் சேர்க்க முன்மொழியப்பட்டுள்ளது !
யூனிகோடில் எழுத்துக்களை சேர்க்க, அவை அச்சிலும் புழக்கத்திலும் இருந்ததற்கான ஆதாரம் இருந்தால் போதுமானது. சில அகராதிகளில் மட்டும் உள்ள பொதுப்பயன்பாட்டில் இல்லாத எழுத்துக்களெல்லாம் யூனிகோடில் ஏறி உள்ளன. இத்தனைக்கும், ஹிந்து சாத்திர, ஸ்தோத்திர நூல்களை அச்சிடுவோர் பல்லாண்டுகளாக பெரும்பாண்மையாக துணைஎண்களுடன் கூடிய எழுத்துக்களை பயனபடுத்துகின்றனர்.

இதன் அடிப்ப்டையில் தான், தமிழிலும் 2,3,4 ஆகிய துணைக்குறிகள் அடங்கிய எழுத்துக்களுக்கு தனி இடம் கேட்டு, “Extended Tamil” என்ற பகுதியை ஒதுக்கி, அதில் இவ்வெழுத்துக்களை சேர்க்க யூனிகோடு நிறுவனத்திடம் வேண்டுகோள் விடுக்கப்பட்டது. எந்த இடத்திலும் கிரந்த எழுத்துக்களை இங்கு சேர்க்கவும் என்ற கேட்கப்படவில்லை என மீண்டும் இங்கு தெளிவுப்படுத்தப்படுகிறது.

எழுத்துமுறையும் மொழியும் ஒன்றல்ல. ஒரு மொழியானது பல்வேறு எழுத்துமுறைகளில் எழுதப்படலாம், அதே போல ஒரு எழுத்துமுறையானது பல்வேறு மொழிகளை எழுத பயன்படலாம். உதாரணமாக, செர்பிய மொழியானது இலத்தீன், சிரில்லிக் என்ற இரு எழுத்துமுறைகளிலும் எழுதப்படுகிறது. தேவநாகரி எழுத்துமுறையானது மராட்டி, ஹிந்தி, நேபாளம் முதலிய மொழிகளை குறிக்கப்பயன்படுகிறது. ஆகவே, ஒரு எழுத்துமுறையானது அதைச்சார்ந்த மொழியும் கூடுதலாக பிற மொழிகளையும் குறிக்கும் வேளைகளில், பல்வேறு புதிய எழுத்துக்கள் துணைக்குறிகளுடன் நீட்சியாக எழுகின்றன. இது உலகின் அனைத்து எழுத்துமுறைகளுக்கும் பொருந்தும்.

பிற இந்திய மொழிகளை மூலபாடம் மாறாமல் தமிழ் எழுத்துமுறையில் எழுத இந்த துணைஎண்களுடன் கூடிய எழுத்துக்கள் நிச்சயமாக உபயோகப்படும். நம்முடைய பாரம்பரிய பண்டைய சூத்திர, சாத்திர, உரைகளில் இருந்து தமிழ் நூல்களில் உச்சரிப்பும் மூலமும் மாறாமல், மேற்கோளாக காட்ட இவ்வெழுத்துக்கள் மிகவும் பயன்படும். இந்த எழுத்துக்களை பயன்படுத்த விரும்பாதவர்கள், பயன்படுத்த வேண்டாம். ஜ, ஹ, ஷ, ஸ போன்ற எழுத்துக்கள் இருந்தும் சிலர் பயன்படுத்தாதது போலத்தான் இதுவும்.

இது போன்ற கூடுதல் எழுத்துக்கள், உதாரணமாக தற்காலத்தில் தமிழில் இல்லாத dha ध என்ற எழுத்து கூட மிக முன்னதாகவே 2000 காலத்துக்கு முற்பட்ட தமிழ் பிராமி கல்வெட்டில் காணப்படுகின்றன. இது ஜைன சமய கல்வெட்டு, धम्मम् த⁴ம்ம்ம் என்ற பிராகிருத சொல்லை குறிக்க இவ்வெழுத்து பயன்படுத்தப்பட்டுள்ளது. [மேலும் விவரங்களுக்கு: http://www.virtualvinodh.com/writingsystems-ta/148-sanskrit-letter-tamil]. இந்த பழமையான தமிழ்கல்வெட்டை தற்காலத்தில் மொழிப்பெயர்க்க வேண்டுமென்றாலும் கூட த⁴ என்ற எழுத்து வேண்டும்!. மயிலையாரின் கூற்றுப்படி பௌத்த ஜைன சமயத்தவர்கள் தான் மணிப்பிரவாளத்தையே உருவாக்கியவர்கள். ஏதோ தமிழ் – வடமொழி தொடர்பு என்றாலே ஹிந்து மத சம்பந்தம் உடையது என்று பிரசங்கிப்பவர்கள் நிச்சயம் கருத்தில் கொள்ள வேண்டிய விஷயம் இது.

akara

உண்மை நிலையை அனைவரும் அறிய வேண்டும் என்பதாலே இந்த விளக்கக்கட்டுரை. துணை எண்களுடன் கூடிய எழுத்துக்களை சேர்ப்பதற்கான முன்மொழிவு யூனிகோடிடம் அளிக்கப்பட்டு விட்டது. நுட்ப ரீதியான பிரச்சினைகள் ஏதேனும் யூனிகோடு எழுப்புமாயின் அதற்கான பிற வழிமுறைகளும் ஆலோசிக்கப்பட்டு வருகிறது. எதுவாகினும், நம்முடைய சாத்திரங்கள் கிரந்தங்கள் முதலியவற்றை மூலபாடம் தவறாது தமிழ் எழுத்துமுறையில் எழுதக்கூடிய நுட்பத்தேடல் தொலை தூரத்தில் இல்லை !