யூனிகோடில் ”விரிவாக்கப்பட்ட தமிழ்” – சில விளக்கங்கள்

இணையத்தில் தமிழ் உலாவரத் தொடங்கிய காலகட்டத்தில் பல்வேறுவிதமான எழுத்துருக்கள் (encoding) புழங்கின. இதனால் ஒவ்வொரு இணையதளத்தையும் படிப்பதற்கு அந்தந்த தளம் பயன்படுத்தும் எழுத்துவடிவத்தை (font) தரவிறக்கிக் கொண்டாக வேண்டும் என்ற தொல்லை இருந்தது. ஆரம்பகால இணையத் தமிழ்ப் பயனாளிகள் இப்போது கூட ஒரு கொடுங்கனவாக அதை எண்ணிப் பார்க்கக் கூடும்.

Ampicillin is a medication that is used to treat bacterial infections. The doctor did not prescribe prednisolone and i am a college student and Kuala Kedah buy clomid for fertility my insurance will not pay for the medicine. Cheap nolvadex the new survey is the first comprehensive examination of public attitudes regarding the u.s.

These drugs are not approved in the united states for the treatment of erectile dysfunction. Tamoxifen cost walmart.com, cost of clomid in south africa Lijiang where you may be surprised by the high costs. The normal doxycycline dosage of a female patient who is experiencing a pregnancy is 600 mg every other day.

Cytotam 20mg tablets are fda approved for the treatment of sexual dysfunction. If you suffer Inazawa azithromycin 500mg tablets online from any form of an allergic reaction, it could be fatal. Doxycycline is a chemical that blocks the formation of the enzymes that break down protein, a process that is used to form collagen and make skin and other tissue strong.

letter_chart1 பிறகு, உலக அளவில் ஆங்கிலம் அல்லாத பற்பல உலக மொழிகளையும் கூட இலகுவாக கணினியில் பயன்படுத்த பொதுவாக யுனிகோட் என்ற எழுத்துரு புழக்கத்தில் வந்தது. மைக்ரோசாஃப்ட், கூகிள் போன்ற நிறுவனங்களும் யுனிகோட் எழுத்துருவுடன் இயைந்திருக்குமாறு (compatible) தாங்கள் உருவாக்கும் மென்பொருட்களை வடிவமைத்து வருகின்றன. யுனிகோட் பயன்பாட்டுக்கு வந்த பின்பு தான் இணையத் தமிழில் பெரும் மலர்ச்சி ஏற்பட்டது என்று கூறலாம். இன்றைக்கு இந்திய மொழிகளிலேயே மிக அதிகமாக, ஏன் ஹிந்தியை விடக் கூட அதிகமாக வலைத்தளங்கள் தமிழில் தான் உள்ளன என்று ஒரு புள்ளிவிவரம் தெரிவிக்கிறது. தமிழக அரசும் யுனிகோட் எழுத்துருவையே இணையத் தமிழ்ப் பயன்பாட்டிற்காக தனது தேர்வாக அங்கீகரித்துள்ளது.

தமிழ் யுனிகோட் எழுத்துருவின் பயன்பாட்டை இன்னும் விரிவாக்கும் முகமாக இன்னும் சில எழுத்துக் குறியீடுகளை சேர்த்து “விரிவாக்கப் பட்ட தமிழ்” (extended Tamil) என்ற எழுத்துருவையும் புழக்கத்தில் கொண்டு வர வேண்டும் என்று தமிழ் மென்பொருள் ஆர்வலர்கள் சிலர் யுனிகோட் நிர்வாகத்திற்கு யோசனை தெரிவித்துள்ளனர். யூனிகோடு நிர்வாகக் குழுவினருக்கு அனுப்பப்பட்ட “விரிவாக்கப்பட்ட தமிழ்” என்கோடிங்க் தொடர்பாக பல குழப்பங்கள் நிகழ்ந்து வரும் காரணத்தினால், அது குறித்து சில அடிப்படையை விளக்கங்கள் தரப்பட வேண்டி உள்ளது. இது தொடர்பான தொழில்நுட்ப விஷயங்களையும் வரலாற்று ரீதியான கருத்துக்களையும் விவரமாக காண்போம்.

தற்சமயத்தில் இணையம் எங்கும் தமிழ் யூனிகோடு கோடு சார்ட்டில் (Unicode Code Chart) தமிழில் கூடுதலாக 26 கிரந்த எழுத்துக்கள் சேர்க்கபப்டுவதற்கான முயற்சிகள் நடைபெறுவதாக சில தேவையற்ற குழப்பங்கள் நிலவி வருகின்றன. “விரிவாக்கப்பட்ட தமிழ்” என்பது ஒரு தனி விஷயம் இதற்கும் கிரந்தத்துக்கும் சம்பந்தமே இல்லை. இது போன்ற குழப்பங்களுக்கு, “விரிவாக்கப்பட்ட தமிழுக்கான” யூனிகோடு முன்மொழிவை திறந்து கூட பார்க்காதது தான் காரணம் என்று தெள்ளத்தெளிவாக தெரிகிறது. அதில் மிகத்தெளிவாகவே, முன்மொழியப்பட்ட “விரிவாக்கப்பட்ட தமிழ்” அட்டவணையில் துணைஎண்களுடன் கூடிய தமிழ் எழுத்துக்கள் தான் உள்ளன.

கிரந்த எழுத்துமுறையானது பாரம்பரியமாக சமஸ்கிருதத்தை எழுத பெருமளவு பழங்காலத்தில் பயன்பாட்டில் இருந்தது, பழங்கால தமிழர்கள் கிரந்த லிபி கொண்டே சமஸ்கிருதத்தை கற்றனர். நம்முடைய பழைய கல்வெட்டுகளில் பலவற்றிலும் கிரந்த லிபி உள்ளது. கிரந்த லிபியானது இப்போதும் கூட சிறு அளவில் இன்னும் பயன்படுத்தப்பட்டு வருகிறது. தமிழிலிருந்து தனிப்பட்ட எழுத்துமுறை அது. அதை தனியாகத்தான் யூனிகோடில் ஏற்ற முடிவு செய்யப்பட்டு, அதற்கான முயற்சிகள் மேற்கொள்ளப்பட்டு வருகின்றன. நம்முடைய பாரம்பரிய கிரந்த லிபியானது இன்னும் ஏறக்குறைய ஓராண்டில் யூனிகோடில் ஏறிவிடும். கிரந்த லிபியானது தமிழ் யூனிகோடுக்கு சம்பந்தமற்றதாக தனியாக யூனிகோடில் ஏறவிருக்கிறது. இத்தோடு கிரந்த சம்பந்தம் முற்றிற்று.

grantha_inscription

((முதற்பதிப்பில் இந்த பத்தி விடுபட்டு விட்டது)) கிரந்த எழுத்துமுறைக்கான முன்மொழிவை யூனிகோடு நிறுவனத்திடம், சென்ற ஆண்டு அளித்த போது, மேற்கத்தியர் ஒருவர், ஏன் கிரந்தத்தையும் தமிழையும் ஒன்றிணைக்கக்கூடாது, தமிழ் யூனிகோடில் நிறைய காலி இடங்கள் உள்ளனவே, ஏன் தேவை இல்லாமல் கிரந்தத்தை தனியாக யூனிகோடில் ஏற்றப்பட வேண்டும் என்ற பரிந்துரையை யூனிகோடு நிறுவனத்திடம் சமர்பித்தார். அப்போதே, அதை மறுத்து, சில எழுத்துக்கள் இரண்டுக்கும் பொதுவாக இருந்தாலும், தமிழ் லிபியும் கிரந்த லிபியும் ஒன்றல்ல இரண்டும் வெவ்வேறான பாரம்பரிய லிபிகள். எனவே தமிழில் இருந்து தனியாகத்தான் கிரந்தம் யூனிகோடில் இணைக்கப்பட வேண்டும் என்று உடனே மறுமொழி, இதே விரிவாக்கப்பட்ட தமிழை முன்மொழிந்த தரப்பினால், யூனிகோடிடம் கொடுக்கப்பட்டது, தனியாகவே கிரந்தம் இப்போது யூனிகோடில் சேர்க்கப்படவிருக்கிறது.

இந்த நிகழ்வை யூனிகோடு நிறுவனத்தில் உறுப்பினராக உள்ளவர்களும் கிரந்த லிபியை யூனிகோடில் சேர்க்க பிரயத்னம் செய்தவர்களும் நன்றாக அறிவர். உண்மையாகவே 26 கிரந்த எழுத்துக்கள் தமிழில் சேர்க்கப்படக்கூடிய சாத்தியம் இருந்த அப்போதெல்லாம் ஆட்டேபம் தெரிவிக்காமல், ஊருக்குள் அமைதியாக இருந்துவிட்டு, இன்னொருவர் கிளப்பி புதைத்து புல் முளைத்த இவ்விஷயத்தை சம்பந்தா சம்ப்ந்தம் இல்லாமல் இப்போது கிளப்புவுது ஏன் என்பது புரியாத புதிர். இந்த “விரிவாக்கப்பட்ட தமிழ்” முன்மொழிவானது கடந்த மாதம் ஜூலை அனுப்பப்பட்டு, யூனிகோடு தொழில்நுட்ப குழுவினரின் பரிசீலனைக்கும் சென்றது. இதுவும் யூனிகோடு உறுப்பினர்களாக உள்ளவர்களுக்கு நிச்சயம் தெரிந்த விஷயம். அப்போதே கூட தொழில்நுட்ப ரீதியான ஆட்சேபனைகள் ஏதேனும் இருப்பின் தெரிவித்திருக்கலாம், அப்போது தெரிவிக்காது இப்போது இல்லாத ஒன்றை (26 கிரந்த எழுத்துக்களை தமிழில் சேர்த்தல்) முன்னிறுத்தி ஆட்சேபிப்பது ஏனென்று அறியேன்.

இனி “விரிவாக்கப்பட்ட தமிழுக்கு” (Extended Tamil) வருவோம். மற்ற இந்திய எழுத்துமுறைகளை போல் அல்லாது தமிழில் kha, gha, jha, dha, ba போன்ற எழுத்துக்களுக்கு வடிவமில்லை. ஆகவே, தமிழில் சமஸ்கிருதம் உட்பட்ட பிற இந்திய மொழிகளை மூல உச்சரிப்பு மாறாமல் அச்சிட விரும்பியவர்கள், தமிழ் எழுத்துக்களுடன் 2,3,4 முதலிய எழுத்துக்களை சேர்த்து க² க⁴ ஜ² த⁴ ப³ என்றவாறு தமிழில் இல்லாத வர்க்க எழுத்துக்களை குறிக்க பயன்படுத்தினர். பல ஆண்டுகளாக இது வழக்கில் உள்ள ஒரு முறை. இது இலத்தீன் எழுத்துக்களை grave, accent, caret போன்ற துணைக்குறியீடுகளை இணைத்து புதிய ஒலிகளை குறிப்பிடுவது போலத்தான். உதாரணமாக, e என்ற எழுத்து è é ê ë xஎன்றவாறாக பல்வேறு துணைகுறியீடுகளை ஏற்றுக்கொண்டு பல்வேறு ஒலிகளை வெளியிடுவது போல. இதே போல், தமிழிலும் துணைஎண்களுடன் கூடிய இது போன்ற எழுத்துக்களையே, தமிழ் அட்டவணையில், ஒரு “விரிவாக்கப்பட்ட தள”த்தை உருவாக்கி, அதில் இவ்வெழுத்துக்களை சேர்க்க வேண்டுகோள் விடுக்கப்பட்டது.

இலத்தீன் எழுத்துமுறை ஆங்கிலம் உட்பட உலகின் பல்வேறு மொழிகளை குறிக்க பயன்படுத்தப்படுகிறது. ஆகவே, ஒவ்வொரு மொழிக்கும் ஏற்றவாறு, துணைக்குறிகளுடன் கூடிய எழுத்துக்களையும் இன்ன பிற புது எழுத்துக்களையும் சேர்த்துக்கொண்டது. அடிப்படை எழுத்துக்களை மீறிய இதுபோன்ற துணைக்குறிகள் கொண்ட கூடுதல் எழுத்துக்கள் பல்வேறு விரிவாக்கப்பட்ட யூனிகோடு பகுதிகளில் சேர்க்கப்பட்டது. இலத்தீன் எழுத்துமுறைக்கு, LATIN-1 SUPPLEMENT, LATIN EXTENDED-A, LATIN EXTENDED-B , LATIN EXTENDED-C, LATIN EXTENDED-D, LATIN EXTENDED ADDITIONAL என்றவாறும், ரஷ்ய சிரில்லிக் எழுத்துமுறையில் CYRILLIC SUPPLEMENT , CYRILLIC EXTENDED-A CYRILLIC EXTENDED-B என்றவாறும், ஜப்பானிய மொழியை எழுதுவதையே பிரதானமாக கொண்ட ஜப்பானிய எழுத்துக்களுக்கு கூட சிறுபாண்மை மொழியான ஐனு மொழியை எழுத, Katakana Phonetic Extensions என தனியே கூடுதல் எழுத்துக்கள் சேர்க்கப்பட்டுள்ளன.

ஏன், யூனிகோடின் தேவாநாகரி அடிப்படை அட்டவணையில் கூட சமஸ்கிருத ஒலிகளை மட்டும் அல்லாது, எ, ஒ, ற, ழ, ள, ன போன்ற திராவிட மொழி ஒலிகளுக்கான எழுத்துக்களும், சிந்தி, காஷ்மீரி மொழிகளை எழுதுவதற்காக பயன்படுத்துப்படும் எழுத்துக்களும் இணைக்கப்பட்டுள்ளன. இதனால் எந்த மாத்திரத்திலும் சமஸ்கிருதம் சீரழிந்து விடவில்லை. பாணினி எழுந்து வந்து, “நான் இலக்கணம் சமைத்த மொழியில் ஏன் திராவிட காஷ்மீரி புல்லுருவித்தனத்தை அனுமதித்தாய் ?” என்று யூனிகோடு நிறுவனத்திடம் சண்டையும் போடப்போவதில்லை. இதனால் சமஸ்கிருதம், ஹிந்தி முதலான வடமொழி கணினி முயற்சிகளோ, அல்லது மென்பொருள் செயல்பாடுகளோ செயலற்று போய்விடவில்லை. சமஸ்கிருதம் மற்றும் பிற வட மொழிகளை எழுதுவோர் அவ்வெழுத்துக்களை பயன்படுத்தப்போவதில்லை, அவ்வளவுதான்.

tatvavivechani1

காஷ்மீரி மொழியை எழுத முனைவோர் தங்களுக்கு தேவையான எழுத்துக்களை பயன்படுத்தப்போகின்றனர். இன்னும் ஏன், 19ஆம் நூற்றாண்டு மேற்கத்திய மொழியியலாளர்கள் சிருஷ்டித்த புதிய தேவநாகரி வடிவங்கள் மற்றும் அவெஸ்தன் மொழியை எழுதுவதற்கு தேவையான எழுத்துக்கள் கூட தேவநாகரி யூனிகோடில் சேர்க்க முன்மொழியப்பட்டுள்ளது !
யூனிகோடில் எழுத்துக்களை சேர்க்க, அவை அச்சிலும் புழக்கத்திலும் இருந்ததற்கான ஆதாரம் இருந்தால் போதுமானது. சில அகராதிகளில் மட்டும் உள்ள பொதுப்பயன்பாட்டில் இல்லாத எழுத்துக்களெல்லாம் யூனிகோடில் ஏறி உள்ளன. இத்தனைக்கும், ஹிந்து சாத்திர, ஸ்தோத்திர நூல்களை அச்சிடுவோர் பல்லாண்டுகளாக பெரும்பாண்மையாக துணைஎண்களுடன் கூடிய எழுத்துக்களை பயனபடுத்துகின்றனர்.

இதன் அடிப்ப்டையில் தான், தமிழிலும் 2,3,4 ஆகிய துணைக்குறிகள் அடங்கிய எழுத்துக்களுக்கு தனி இடம் கேட்டு, “Extended Tamil” என்ற பகுதியை ஒதுக்கி, அதில் இவ்வெழுத்துக்களை சேர்க்க யூனிகோடு நிறுவனத்திடம் வேண்டுகோள் விடுக்கப்பட்டது. எந்த இடத்திலும் கிரந்த எழுத்துக்களை இங்கு சேர்க்கவும் என்ற கேட்கப்படவில்லை என மீண்டும் இங்கு தெளிவுப்படுத்தப்படுகிறது.

எழுத்துமுறையும் மொழியும் ஒன்றல்ல. ஒரு மொழியானது பல்வேறு எழுத்துமுறைகளில் எழுதப்படலாம், அதே போல ஒரு எழுத்துமுறையானது பல்வேறு மொழிகளை எழுத பயன்படலாம். உதாரணமாக, செர்பிய மொழியானது இலத்தீன், சிரில்லிக் என்ற இரு எழுத்துமுறைகளிலும் எழுதப்படுகிறது. தேவநாகரி எழுத்துமுறையானது மராட்டி, ஹிந்தி, நேபாளம் முதலிய மொழிகளை குறிக்கப்பயன்படுகிறது. ஆகவே, ஒரு எழுத்துமுறையானது அதைச்சார்ந்த மொழியும் கூடுதலாக பிற மொழிகளையும் குறிக்கும் வேளைகளில், பல்வேறு புதிய எழுத்துக்கள் துணைக்குறிகளுடன் நீட்சியாக எழுகின்றன. இது உலகின் அனைத்து எழுத்துமுறைகளுக்கும் பொருந்தும்.

பிற இந்திய மொழிகளை மூலபாடம் மாறாமல் தமிழ் எழுத்துமுறையில் எழுத இந்த துணைஎண்களுடன் கூடிய எழுத்துக்கள் நிச்சயமாக உபயோகப்படும். நம்முடைய பாரம்பரிய பண்டைய சூத்திர, சாத்திர, உரைகளில் இருந்து தமிழ் நூல்களில் உச்சரிப்பும் மூலமும் மாறாமல், மேற்கோளாக காட்ட இவ்வெழுத்துக்கள் மிகவும் பயன்படும். இந்த எழுத்துக்களை பயன்படுத்த விரும்பாதவர்கள், பயன்படுத்த வேண்டாம். ஜ, ஹ, ஷ, ஸ போன்ற எழுத்துக்கள் இருந்தும் சிலர் பயன்படுத்தாதது போலத்தான் இதுவும்.

இது போன்ற கூடுதல் எழுத்துக்கள், உதாரணமாக தற்காலத்தில் தமிழில் இல்லாத dha ध என்ற எழுத்து கூட மிக முன்னதாகவே 2000 காலத்துக்கு முற்பட்ட தமிழ் பிராமி கல்வெட்டில் காணப்படுகின்றன. இது ஜைன சமய கல்வெட்டு, धम्मम् த⁴ம்ம்ம் என்ற பிராகிருத சொல்லை குறிக்க இவ்வெழுத்து பயன்படுத்தப்பட்டுள்ளது. [மேலும் விவரங்களுக்கு: http://www.virtualvinodh.com/writingsystems-ta/148-sanskrit-letter-tamil]. இந்த பழமையான தமிழ்கல்வெட்டை தற்காலத்தில் மொழிப்பெயர்க்க வேண்டுமென்றாலும் கூட த⁴ என்ற எழுத்து வேண்டும்!. மயிலையாரின் கூற்றுப்படி பௌத்த ஜைன சமயத்தவர்கள் தான் மணிப்பிரவாளத்தையே உருவாக்கியவர்கள். ஏதோ தமிழ் – வடமொழி தொடர்பு என்றாலே ஹிந்து மத சம்பந்தம் உடையது என்று பிரசங்கிப்பவர்கள் நிச்சயம் கருத்தில் கொள்ள வேண்டிய விஷயம் இது.

akara

உண்மை நிலையை அனைவரும் அறிய வேண்டும் என்பதாலே இந்த விளக்கக்கட்டுரை. துணை எண்களுடன் கூடிய எழுத்துக்களை சேர்ப்பதற்கான முன்மொழிவு யூனிகோடிடம் அளிக்கப்பட்டு விட்டது. நுட்ப ரீதியான பிரச்சினைகள் ஏதேனும் யூனிகோடு எழுப்புமாயின் அதற்கான பிற வழிமுறைகளும் ஆலோசிக்கப்பட்டு வருகிறது. எதுவாகினும், நம்முடைய சாத்திரங்கள் கிரந்தங்கள் முதலியவற்றை மூலபாடம் தவறாது தமிழ் எழுத்துமுறையில் எழுதக்கூடிய நுட்பத்தேடல் தொலை தூரத்தில் இல்லை !