Wednesday, January 6, 2010

Devanagari Unicode having facility to type Sourashtra language

The unicode fonts are capable to type Sourashtra language.   The hrasva sound (Kuril ) ye & o is required to previous fonts.  It had done on unicode fonts.



Now we can enjoy the sourashtra typing with accuracy.  Google having facility of translitration roman alphabets to devanagari alphabets.  Here also we enjoy sourashtra mail composing without 2 hrasva sound.

Devanagari Script Recognition

Devanagari Script Recognition


More than 300 million people around the world use Devanagari script. It is the base script of many languages in India, such as Hindi and Sanskrit, Marati, Sourashtra, Konkani, and Mythili. And there are other languages that use variants of this script. Its basic set of symbols consists of 34 consonants and 18 vowels, and though Devanagari has a native set of symbols for numerals, Arabic numbers are now commonly used. Optical Character Recognition for Devanagari is highly complex do to its rich set of conjuncts.


Devanagari is written from left to right along a horizontal line. Its basic set of symbols consists of 34 consonants or ('vyanjan') and 18 vowels ('svar'). Characters are joined by a horizontal bar that creates an imaginary line by which Devanagari text is suspended, and no spaces are used between words. A single or double vertical line called a Danda was traditionally used to indicate the end of phrase or sentence. Devanagari also has a native set of symbols for numerals, though Arabic numbers are typically used.


In part, Devanagari owes its complexity to its rich set of conjuncts. The language is partly phonetic in that a word written in Devanagari can only be pronounced in one way, but not all possible pronunciations can be written perfectly. A syllable ("akshar") is formed by a vowel alone or any combination of consonants with a vowel.

Here is a sample set of non-compound devanagari characters.





You can clearly see that some characters have upper and lower modifiers. Here is a sample of Devanagari modifiers.





Obviously, these modifiers make Optical Character Recognition (OCR) with Devanagari script very challenging. OCR is further complicated by compound characters that make character seperation and identification very difficult.



Examples of some compound charaters are illustrated below.



OCR for Devanagari script becomes even more difficult when compound character and modifier characteristics are combined in 'noisy' situations. The image below illustrates a Devanagari document with background noise. You can clearly see that compound characters and modifiers are difficult to detect in this image because the image background is not uniform in color, and marks are present that must be distinguished from characters.








Devanagari text can be represented in 2 ways - Transliteration and Unicode formats. Both formats are widely used, though each makes its own claim for having covered the entire devanagari character set. A transliteration map is shown below. Transliteration is used to convert english alphabets into devanagari characters, based upon phonetic translation.





Free software is available that can convert english into Devanagari based upon the transliteration format

Learn from Tamilians

சமீபத்தில் லேனா தமிழ்வாணன் எழுதிய ஒரு கட்டுரை கிடைத்தது.  அதனை படித்து பாருங்கள்.  நமக்கும் சௌராஷ்ட்ர மொழி பற்றி ஒரு உற்சாகம் கிடைக்கும்.  நமது மொழிக்கு இப்படி ஒரு பெருமை உள்ளது நமக்கே தெரிய வரும்.

Reasons of Sourashtra Alphabets Declaration

     சமீபத்தில் சௌராஷ்ட்ர மொழியை எழுதுவதற்கு பாளையங்கோட்டையில் தமிழக சட்ட மன்ற உறுப்பினர்கள், மத்திய அரசு அதிகாரிகள் சௌராஷ்ட்ர சமூக பிரமுகர்கள் முன்னிலயில் வெளியிடப்பட்டது.  சௌராஷ்ட்ர மத்திய சபையின் மொழி அறிஞர் குழு கமிட்டி சார்பில் மைசூர் CIIL  அலுவலகத்தில் இறுதி வடிவம் செய்யப்பட்ட எழுத்துருக்கள் வெளியிடப்பட்டது. 

     இதனை ஒட்டி சில கேள்விகள் எழுந்து உள்ளது.  சிலர் ராமாராய் எழுத்துரு சௌராஷ்ட்ர மொழியை எழுவதற்கு பிரச்சாரம் செய்து வந்த  நிலையில், ஏன் ஹிந்தி எழுத்தை சௌராஷ்ட்ர மொழி எழுத பயன்படுத்த   வேண்டும்? என்று கேள்வி எழுப்புகின்றனர்.   இதனை ஒட்டி சில விளக்கங்கள் தருகிரேன்.

சுமார் 110 ஆண்டுகளுக்கு முன்னரே சௌராஷ்ட்ர மடிய சபையில் விவாதங்கள் நடை பெற்று நமது சௌராஷ்ட்ர மொழிக்கு எழுத்துருவாக தேவநகரி எழுத்தே உரியது.  நமது பாரம்பரியத்திற்கு உகந்ததும் நமது சௌராஷ்ட்ர மொழி உச்சரிப்பிற்கு உள்ள அனைத்து ஒலிகளும் தேவநகரி எழுத்தில் பிரதிபலிக்கப்படுவதால் அதனையே (அதாவது ஹிந்தி எழுத்தையே ) நாமும் உபயோகபடுத்தலாம்  என தீர்மானம் இயற்றினர்.  ஆனால் தமிழ் நாட்டில் அன்று இருந்த ஹிந்தி எதிர்ப்பு நிலை காரமணாக அதனை செயல் படுத்துவதில் சிரமம் இருந்தது.  இந்த   இடைப்பட்ட காலத்தில் ராமராய் எழுத்தை சிலர் பிரசாரம்     செய்வதில் வெற்றி கண்டனர் சிலர். 

அவர்களுக்கு ஒரு கேள்வி.  ஒரு பேச்சுக்காக இன்னும் இருநூறு ஆண்டு கழித்து ராம ராய் தெலுங்கு எழுத்தினை சீரமைத்து உருவாக்கிய எழுத்தினை விட்டு ஒருவர் ஆராய்ச்சி செய்தால், நம்மை அவர் " இவர்கள் விஜயநகர் பேரரசு வந்து பின் தமிழகம் வந்தவர்கள், இவர்களது எழுத்து தெலுங்கு எழுத்து போல வுள்ளது, இவர்கள் தெலுங்கு மற்றும் சொசுராஷ்டிரா மக்களின் கலப்பினமாவார்கள்" என்று முடிவு செய்தால் அதனை எப்படி மறுக்க முடியும்?   அவர்களுக்கு ஒரு தகவல் கீழே வுள்ள படத்தில் உள்ளது.   எப்படி தேவநகரி எழுத்து சௌராஷ்ட்ர மொழிக்கு இயல்பாகவே பொருந்தும் என்பதை புரிந்து கொள்ளலாம்.


இந்திய  மொழிகளின் எழுத்துருக்கள் வம்சாவளி படம்.   பிரம்மி எழுத்தில் இருந்து நகரி எழுத்து வரை வாருங்கள்.  அங்கு நமது சௌராஷ்ட்ர பகுதி இருக்கும் இடத்தில் என்ன எழுத்து இருக்கிறது என்று பாருங்கள்.  இன்று குஜராத்திலும், மகாராஷ்ட்ரவிலும் தேவநகரி எழுத்து தானே உபயோகப் படுத்தப்படுகிறது?  நமது தாய் நிலமான சௌராஷ்ட்ர வில் தேவநகரி எழுத்து உபயோகத்தில் இருக்க நாம் இங்கு வேறு எழுத்தி ஏன் உபயோகப்படுத்த  வேண்டும்?    தெலுங்கு எழுத்தை சீரமைத்து எழுதுவது சௌராஷ்ட்ர மொழியின் நீண்ட பாரம்பரியத்திற்கு அது பொருந்துமா? நமது பழமையை அது வேர் அறுத்து விடாதா?

சில நூறு ஆண்டுகளுக்கு முன்னர் நமது சௌராஷ்ட்ர சமஸ்தான மன்னர்கள் உபயோகப்படுத்திய தபால் கார்டினை பாருங்கள் .  அதில் தேவநகரி எழுத்து தானே உபயோகித்து உள்ளனர்?

மேல் கோடு இடப்படாமல் இருக்கும் தேவநகரி எழுத்து அச்சில் உள்ளது.   இந்த பாரம்பரியத்தை ஏன் நம்மில் சிலர் அறுக்க விரும்புகிறார்கள்?

Monday, January 4, 2010

Sourashtra Script (Alphabets) Declaration function

சமீபத்தில் சௌராஷ்ட்ர மொழிக்கு தேவநகரி எழுத்து அடிப்படியிலான எழுத்து மத்திய அரசு மொழி நிறுவனமான சென்ட்ரல் இன்ஸ்டிடியுட் ஆப் இந்தியன் லாங்வேஜ், மைசூர் மூலமாக வெளியீடு நடைபெற்றது. 

தேவநகரி எழுத்து  என்றால் ஹிந்தி, சமஸ்க்ருதம் (हिंदी संस्कृत ) எழுத பயன்படும் எழுத்து தான்.  ஆனால் சௌராஷ்ட்ர மொழிக்கு என உள்ள சிறப்பு உச்சரிப்புகளுக்கென ஆறு எழுத்துக்கள் ஹிந்தி எழுத்துடன் சேர்க்கப்பட்டு உள்ளது.  கீழ் உள்ள  படம் பார்க்க.   இவைகள்  தான் சௌராஷ்ட்ர மொழி எழுத்துக்கள்.

   

இது போன்று சௌராஷ்ட்ர மொழியினை எழுத வேண்டும் என மாடல் காண்பிக்கப் பட்டு உள்ளது.   இதில் உயிர் எழுத்தில் எ, என்ற எழுத்து ஹிந்தி மொழியில் இல்லை.   அது சௌராஷ்டிர மொழியில் சேர்க்கப் பட்டு உள்ளது.   மற்றும் ல: ம: ந: ர: என்ற சிறப்பு சௌராஷ்ட்ர உச்சரிப்புகளுக்கு சிறப்பு எழுத்துகள் சேர்க்கப் பட்டு    உள்ளது.  இந்த லிபி பிரகடன விழாவில் தமிழக சட்ட மன்ற உறுப்பினர்கள்,  மத்திய அரசு அதிகாரிகள், சௌராஷ்ட்ர சமுக முக்கிய பிரமுகர்கள் ஆகியோர் கலந்து கொண்டனர்.  விழாவின் அழைப்பு மடலை கீழே காணலாம்.




இவ்வாறு சீரும் சிறப்புமாக சௌராஷ்ட்ர மக்களின் பிரதிநிதி ஆகிய சௌராஷ்ட்ர மத்ய சபை பொறுப்பாளர்கள் மற்றும் ஏராளமான சௌராஷ்ட்ர பொது மக்கள் முன்னிலயில் பாளையங்கோட்டை ஐ ஐ பி எம் உயர் நிலை பள்ளியில் நடை பெற்ற விழாவில்  தேவநகரி எழுத்து ஏற்று கொள்ளப்பட்டது.   தமிழக பள்ளிகளில் மொழிவாரி சிறுபான்மை நல துறை மூலமாக சௌராஷ்ட்ர மொழி கற்பிக்க வேண்டி பலர் விருப்பம் தெரிவித்து வருகின்றனர்.   மத்திய அரசில் சிறுபான்மை மொழி பட்டியலில் நமது சௌராஷ்ட்ர மொழி இல்லை.  இந்த எழுத்து பிரகடந விழாவில் மத்திய அரசு பட்டியலில் நமது சௌராஷ்ட்ர மொழி சேர்க்கப் படும் என தெரிவிக்கப் பட்டது.   அப்படி சேர்க்கப் பட்டால் சௌராஷ்ட்ர மொழிக்கு அங்கீகாரம் கிடைக்கும்.