ASCII మరియు యూనికోడ్ రెండూ టెక్స్ట్ యొక్క డిజిటల్ ప్రాతినిధ్యాన్ని సూచించే ప్రమాణాలు, ప్రత్యేకంగా వచనాన్ని తయారు చేసే అక్షరాలు. ఏదేమైనా, రెండు ప్రమాణాలు గణనీయంగా భిన్నంగా ఉంటాయి, అనేక లక్షణాలు వాటి యొక్క సృష్టి క్రమాన్ని ప్రతిబింబిస్తాయి.
అమెరికా వర్సెస్ ది యూనివర్స్
అమెరికన్ స్టాండర్డ్ కోడ్ ఫర్ ఇన్ఫర్మేషన్ ఇంటర్ఛేంజ్ (ASCII), ఆశ్చర్యకరంగా, ఆంగ్ల అక్షరాలలో వ్రాస్తూ, ఒక అమెరికన్ ప్రేక్షకులను అందిస్తుంది. ఇది A-Z మరియు a-z వంటి అసంఘటిత అక్షరాలతో పాటు తక్కువ సంఖ్యలో విరామ చిహ్నాలు మరియు నియంత్రణ అక్షరాలతో వ్యవహరిస్తుంది.
ప్రత్యేకించి, ఇతర భాషల నుండి స్వీకరించిన రుణ పదాలను సూచించే మార్గం లేదు కాఫీ ASCII లో, ఉచ్చారణ అక్షరాలను భర్తీ చేయడం ద్వారా వాటిని ఆంగ్లీకరించకుండా (ఉదా., కేఫ్ ). స్థానికీకరించిన ASCII పొడిగింపులు వివిధ భాషల అవసరాలను తీర్చడానికి అభివృద్ధి చేయబడ్డాయి, అయితే ఈ ప్రయత్నాలు ఇంటర్ఆపెరాబిలిటీని ఇబ్బందికరంగా మార్చాయి మరియు ASCII సామర్థ్యాలను స్పష్టంగా విస్తరించాయి.
దీనికి విరుద్ధంగా, యూనివర్సల్ కోడెడ్ క్యారెక్టర్ సెట్ (యునికోడ్) ఆశయ స్కేల్కు ఎదురుగా ఉంటుంది. యునికోడ్ సాధ్యమైనంత వరకు ప్రపంచంలోని అనేక రచనా వ్యవస్థలను తీర్చడానికి ప్రయత్నిస్తుంది, ఇది ప్రాచీన భాషలను మరియు ప్రతిఒక్కరికీ ఇష్టమైన వ్యక్తీకరణ చిహ్నాలు, ఎమోజీలను కవర్ చేస్తుంది.
అక్షర సెట్ లేదా అక్షర ఎన్కోడింగ్?
సరళంగా చెప్పాలంటే, అక్షర సమితి అనేది అక్షరాల ఎంపిక (ఉదా., A-Z) అయితే అక్షర ఎన్కోడింగ్ అనేది అక్షర సమితి మరియు డిజిటల్గా ప్రాతినిధ్యం వహించగల విలువ మధ్య మ్యాపింగ్ (ఉదా., A = 1, B = 2).
ASCII ప్రమాణం రెండూ సమర్థవంతంగా ఉంటాయి: ఇది ప్రతిబింబించే అక్షరాల సమితిని మరియు ప్రతి అక్షరాన్ని సంఖ్యా విలువకు మ్యాపింగ్ చేసే పద్ధతిని నిర్వచిస్తుంది.
దీనికి విరుద్ధంగా, యునికోడ్ అనే పదం విభిన్న విషయాలను అర్థం చేసుకోవడానికి అనేక విభిన్న సందర్భాలలో ఉపయోగించబడుతుంది. అక్షర సమితి మరియు అనేక ఎన్కోడింగ్లను సూచించడానికి మీరు ASCII వంటి అన్నింటినీ కలుపుకునే పదంగా భావించవచ్చు. కానీ, అనేక ఎన్కోడింగ్లు ఉన్నందున, యూనికోడ్ అనే పదాన్ని తరచుగా అక్షరాలు ఎలా మ్యాప్ చేయబడ్డాయనే దానికంటే మొత్తం అక్షర సమితిని సూచించడానికి ఉపయోగిస్తారు.
పరిమాణం
దాని పరిధి కారణంగా, యూనికోడ్ ASCII కంటే చాలా ఎక్కువ అక్షరాలను సూచిస్తుంది. ప్రామాణిక ASCII 128 విభిన్నమైన ఎన్కోడ్ చేయడానికి 7-బిట్ పరిధిని ఉపయోగిస్తుంది పాత్రలు . మరోవైపు, యూనికోడ్ చాలా పెద్దది, దాని గురించి మాట్లాడటానికి మనం విభిన్న పదజాలం ఉపయోగించాలి!
యునికోడ్ 1,111,998 అడ్రస్ చేయదగినది కోడ్ పాయింట్లు. కోడ్ పాయింట్ అనేది అక్షరానికి కేటాయించిన స్థలానికి సమానంగా ఉంటుంది, కానీ మీరు వివరాలను లోతుగా పరిశీలించడం ప్రారంభించినప్పుడు పరిస్థితి చాలా క్లిష్టంగా ఉంటుంది!
ప్రస్తుతం ఎంత స్క్రిప్ట్లు (లేదా రైటింగ్ సిస్టమ్లు) సపోర్ట్ చేయబడుతున్నాయనేది మరింత ఉపయోగకరమైన పోలిక. వాస్తవానికి, ASCII ఆంగ్ల వర్ణమాలను మాత్రమే నిర్వహిస్తుంది, ముఖ్యంగా లాటిన్ లేదా రోమన్ లిపి. 2020 లో ఉత్పత్తి చేయబడిన యునికోడ్ వెర్షన్ మరింత ముందుకు వెళుతుంది: ఇందులో మొత్తం 154 స్క్రిప్ట్లకు సపోర్ట్ ఉంటుంది.
నిల్వ
ASCII యొక్క 7-బిట్ పరిధి అంటే ప్రతి అక్షరం ఒకే 8-బిట్ బైట్లో నిల్వ చేయబడుతుంది; ప్రామాణిక ASCII లో విడి బిట్ ఉపయోగించబడదు. ఇది పరిమాణ గణనలను చిన్నవిగా చేస్తుంది: టెక్స్ట్ యొక్క పొడవు, అక్షరాలలో, ఫైల్ పరిమాణం బైట్లలో ఉంటుంది.
బాష్ ఆదేశాల కింది క్రమంతో మీరు దీన్ని నిర్ధారించవచ్చు. మొదట, మేము 12 అక్షరాల వచనాన్ని కలిగి ఉన్న ఫైల్ను సృష్టిస్తాము:
uefi బయోస్ విండోస్ 10 ని యాక్సెస్ చేయడం సాధ్యం కాదు
$ echo -n 'Hello, world' > foo
టెక్స్ట్ ASCII ఎన్కోడింగ్లో ఉందో లేదో తనిఖీ చేయడానికి, మేము దీనిని ఉపయోగించవచ్చు ఫైల్ ఆదేశం:
$ file foo
foo: ASCII text, with no line terminators
చివరగా, ఫైల్ ఆక్రమించిన ఖచ్చితమైన బైట్ల సంఖ్యను పొందడానికి, మేము దీనిని ఉపయోగిస్తాము రాష్ట్రం ఆదేశం:
$ stat -f%z foo
12
యునికోడ్ ప్రమాణం చాలా ఎక్కువ అక్షరాలతో వ్యవహరిస్తుంది కాబట్టి, యూనికోడ్ ఫైల్ సహజంగానే ఎక్కువ నిల్వ స్థలాన్ని ఆక్రమిస్తుంది. ఎన్కోడింగ్పై ఖచ్చితంగా ఎంత ఆధారపడి ఉంటుంది.
ASCII లో ప్రాతినిధ్యం వహించలేని అక్షరాన్ని ఉపయోగించి, మునుపటి నుండి అదే ఆదేశాల సమితిని పునరావృతం చేయడం, కింది వాటిని ఇస్తుంది:
$ echo -n '€' > foo
$ file foo
foo: UTF-8 Unicode text, with no line terminators
$ stat -f%z foo
3
ఆ ఒక్క అక్షరం యునికోడ్ ఫైల్లో 3 బైట్లను ఆక్రమిస్తుంది. ASCII ఫైల్ ఎంచుకున్న అక్షరాన్ని (€) నిల్వ చేయలేనందున బాష్ స్వయంచాలకంగా UTF-8 ఫైల్ను సృష్టించిందని గమనించండి. యుటిఎఫ్ -8 అనేది యునికోడ్ కోసం అత్యంత సాధారణ అక్షర ఎన్కోడింగ్; UTF-16 మరియు UTF-32 రెండు ప్రత్యామ్నాయ ఎన్కోడింగ్లు, కానీ అవి చాలా తక్కువగా ఉపయోగించబడతాయి.
UTF-8 అనేది వేరియబుల్-వెడల్పు ఎన్కోడింగ్, అంటే ఇది వివిధ కోడ్ పాయింట్ల కోసం వివిధ మొత్తాల నిల్వను ఉపయోగిస్తుంది. ప్రతి కోడ్ పాయింట్ ఒకటి మరియు నాలుగు బైట్ల మధ్య ఆక్రమిస్తుంది, మరింత సాధారణ అక్షరాలకు తక్కువ స్థలం అవసరమనే ఉద్దేశ్యంతో, అంతర్నిర్మిత కుదింపు రకాన్ని అందిస్తుంది. ప్రతికూలత ఏమిటంటే, ఇచ్చిన టెక్స్ట్ భాగం యొక్క పొడవు లేదా పరిమాణ అవసరాలను నిర్ణయించడం చాలా క్లిష్టంగా మారుతుంది.
ASCII అనేది యూనికోడ్, కానీ యూనికోడ్ ASCII కాదు
వెనుకబడిన అనుకూలత కోసం, మొదటి 128 యూనికోడ్ కోడ్ పాయింట్లు సమానమైన ASCII అక్షరాలను సూచిస్తాయి. UTF-8 ఈ ప్రతి అక్షరాన్ని ఒకే బైట్తో ఎన్కోడ్ చేస్తుంది కాబట్టి, ఏదైనా ASCII టెక్స్ట్ కూడా UTF-8 టెక్స్ట్. యునికోడ్ అనేది ASCII యొక్క సూపర్సెట్.
అయితే, పైన చూపిన విధంగా, అనేక యూనికోడ్ ఫైల్స్ ASCII సందర్భంలో ఉపయోగించబడవు. పరిమితికి మించిన ఏదైనా పాత్ర ఊహించని రీతిలో ప్రదర్శించబడుతుంది, తరచుగా ప్రత్యామ్నాయ అక్షరాలు ఉద్దేశించిన వాటికి పూర్తిగా భిన్నంగా ఉంటాయి.
ఆధునిక వినియోగం
చాలా ప్రయోజనాల కోసం, ASCII ఎక్కువగా లెగసీ ప్రమాణంగా పరిగణించబడుతుంది. లాటిన్ లిపికి మాత్రమే మద్దతు ఇచ్చే పరిస్థితులలో కూడా- యునికోడ్ యొక్క సంక్లిష్టతలకు పూర్తి మద్దతు అనవసరమైనది, ఉదాహరణకు- సాధారణంగా UTF-8 ని ఉపయోగించడం మరియు దాని ASCII అనుకూలతను సద్వినియోగం చేసుకోవడం మరింత సౌకర్యవంతంగా ఉంటుంది.
i/o లోపం హార్డ్ డ్రైవ్
ముఖ్యంగా, HTML5 కోసం డిఫాల్ట్ అయిన UTF-8 ఉపయోగించి వెబ్ పేజీలు సేవ్ చేయబడాలి మరియు ప్రసారం చేయాలి. ఇది లాటిన్ 1 ద్వారా అధిగమించడానికి ముందు డిఫాల్ట్గా ASCII లో వ్యవహరించిన మునుపటి వెబ్కి భిన్నంగా ఉంటుంది.
మారుతున్న ప్రమాణం
ASCII యొక్క చివరి పునర్విమర్శ 1986 లో జరిగింది.
దీనికి విరుద్ధంగా, యునికోడ్ వార్షికంగా అప్డేట్ చేయబడుతోంది. కొత్త స్క్రిప్ట్లు, అక్షరాలు మరియు ముఖ్యంగా కొత్త ఎమోజీలు క్రమం తప్పకుండా జోడించబడతాయి. వీటిలో కొంత భాగాన్ని మాత్రమే కేటాయించినందున, పూర్తి అక్షర సమితి భవిష్యత్తులో పెరగడానికి మరియు పెరిగే అవకాశం ఉంది.
సంబంధిత: 100 అత్యంత ప్రజాదరణ పొందిన ఎమోజీలు వివరించబడ్డాయి
ASCII వర్సెస్ యూనికోడ్
ASCII అనేక దశాబ్దాలుగా దాని ప్రయోజనాన్ని అందించింది, కానీ యునికోడ్ ఇప్పుడు దానిని లెగసీ సిస్టమ్లు కాకుండా అన్ని ఆచరణాత్మక ప్రయోజనాల కోసం సమర్థవంతంగా భర్తీ చేసింది. యూనికోడ్ పెద్దది మరియు అందువల్ల మరింత వ్యక్తీకరణ. ఇది ప్రపంచవ్యాప్త, సహకార కృషికి ప్రాతినిధ్యం వహిస్తుంది మరియు కొంత సంక్లిష్టత వ్యయంతో ఉన్నప్పటికీ, చాలా ఎక్కువ సౌలభ్యాన్ని అందిస్తుంది.
షేర్ చేయండి షేర్ చేయండి ట్వీట్ ఇమెయిల్ ASCII టెక్స్ట్ అంటే ఏమిటి మరియు ఇది ఎలా ఉపయోగించబడుతుంది?ASCII టెక్స్ట్ నిగూఢంగా కనిపిస్తుంది, కానీ ఇది ఇంటర్నెట్లో అనేక ఉపయోగాలు కలిగి ఉంది.
తదుపరి చదవండి సంబంధిత అంశాలు- సాంకేతికత వివరించబడింది
- ఎమోజీలు
- పరిభాష
- వెబ్ కల్చర్
- యూనికోడ్
రెండు దశాబ్దాల పాటు సాఫ్ట్వేర్ డెవలపర్గా పనిచేసిన బాబీ ఒక టెక్నాలజీ astత్సాహికుడు. అతను గేమింగ్పై మక్కువ కలిగి, స్విచ్ ప్లేయర్ మ్యాగజైన్లో రివ్యూస్ ఎడిటర్గా పని చేస్తున్నాడు మరియు ఆన్లైన్ పబ్లిషింగ్ & వెబ్ డెవలప్మెంట్ యొక్క అన్ని అంశాలలో మునిగిపోయాడు.
బాబీ జాక్ నుండి మరిన్నిమా వార్తాలేఖకు సభ్యత్వాన్ని పొందండి
టెక్ చిట్కాలు, సమీక్షలు, ఉచిత ఈబుక్లు మరియు ప్రత్యేకమైన డీల్స్ కోసం మా వార్తాలేఖలో చేరండి!
సభ్యత్వం పొందడానికి ఇక్కడ క్లిక్ చేయండి