యునిక్యూతో లైనక్స్ టెక్స్ట్ ఫైల్‌లో డూప్లికేట్ డేటాను ఎలా కనుగొనాలి

యునిక్యూతో లైనక్స్ టెక్స్ట్ ఫైల్‌లో డూప్లికేట్ డేటాను ఎలా కనుగొనాలి

మీరు ఎప్పుడైనా పునరావృత పంక్తులు మరియు నకిలీ పదాలతో టెక్స్ట్ ఫైల్‌లను చూసారా? బహుశా మీరు క్రమం తప్పకుండా కమాండ్ అవుట్‌పుట్‌తో పని చేయవచ్చు మరియు విభిన్న స్ట్రింగ్‌ల కోసం ఫిల్టర్ చేయాలనుకోవచ్చు. లైనక్స్‌లో టెక్స్ట్ ఫైల్‌లు మరియు రిడెండెంట్ డేటాను తీసివేయడం విషయానికి వస్తే, యూనిక్ కమాండ్ మీ ఉత్తమ పందెం.





ఈ ఆర్టికల్లో, ఒక టెక్స్ట్ ఫైల్ నుండి డూప్లికేట్ లైన్స్ తొలగించడానికి కమాండ్ ఎలా ఉపయోగించాలో వివరణాత్మక గైడ్‌తో పాటుగా యూనిక్ కమాండ్ గురించి లోతుగా చర్చిస్తాము.





యూనిక్ కమాండ్ అంటే ఏమిటి?

లైనక్స్‌లోని యూనిక్ కమాండ్ టెక్స్ట్ ఫైల్‌లో ఒకేలాంటి లైన్‌లను ప్రదర్శించడానికి ఉపయోగించబడుతుంది. మీరు టెక్స్ట్ ఫైల్ నుండి నకిలీ పదాలు లేదా తీగలను తీసివేయాలనుకుంటే ఈ ఆదేశం సహాయకరంగా ఉంటుంది. అనవసరమైన కాపీలను కనుగొనడానికి యూనిక్ కమాండ్ ప్రక్కనే ఉన్న లైన్‌లతో సరిపోతుంది కాబట్టి, ఇది క్రమబద్ధీకరించిన టెక్స్ట్ ఫైల్‌లతో మాత్రమే పనిచేస్తుంది.





అదృష్టవశాత్తూ, మీరు పైప్ చేయవచ్చు క్రమబద్ధీకరించు కమాండ్‌కు అనుకూలంగా ఉండే విధంగా టెక్స్ట్ ఫైల్‌ని ఆర్గనైజ్ చేయడానికి uniq తో కమాండ్ చేయండి. పదేపదే పంక్తులను ప్రదర్శించడమే కాకుండా, యూనిక్ కమాండ్ టెక్స్ట్ ఫైల్‌లో డూప్లికేట్ లైన్స్‌ని కూడా లెక్కించవచ్చు.

యూనిక్ కమాండ్ ఎలా ఉపయోగించాలి

మీరు యూనిక్‌తో ఉపయోగించగల వివిధ ఎంపికలు మరియు ఫ్లాగ్‌లు ఉన్నాయి. వాటిలో కొన్ని ప్రాథమికమైనవి మరియు పునరావృతమయ్యే పంక్తులను ముద్రించడం వంటి సాధారణ కార్యకలాపాలను నిర్వహిస్తాయి, మరికొన్ని లైనక్స్‌లో టెక్స్ట్ ఫైల్‌లతో తరచుగా పనిచేసే అధునాతన వినియోగదారుల కోసం.



ప్రాథమిక వాక్యనిర్మాణం

యూనిక్ కమాండ్ యొక్క ప్రాథమిక వాక్యనిర్మాణం:

uniq option input output

...ఎక్కడ ఎంపిక కమాండ్ యొక్క నిర్దిష్ట పద్ధతులను ప్రారంభించడానికి ఉపయోగించే జెండా, ఇన్పుట్ ప్రాసెసింగ్ కోసం టెక్స్ట్ ఫైల్, మరియు అవుట్‌పుట్ అవుట్‌పుట్‌ను నిల్వ చేసే ఫైల్ యొక్క మార్గం.





ది అవుట్‌పుట్ వాదన ఐచ్ఛికం మరియు దాటవేయవచ్చు. ఒక వినియోగదారు ఇన్‌పుట్ ఫైల్‌ని పేర్కొనకపోతే, యూనిక్ ప్రామాణిక అవుట్‌పుట్ నుండి డేటాను ఇన్‌పుట్‌గా తీసుకుంటుంది. ఇది వినియోగదారుని యూనిక్‌తో పైప్ చేయడానికి అనుమతిస్తుంది ఇతర Linux ఆదేశాలు .

ఉదాహరణ టెక్స్ట్ ఫైల్

మేము టెక్స్ట్ ఫైల్‌ని ఉపయోగిస్తాము నకిలీ. txt కమాండ్ కోసం ఇన్‌పుట్‌గా.





127.0.0.1 TCP
127.0.0.1 UDP
Do catch this
DO CATCH THIS
Don't match this
Don't catch this
This is a text file.
This is a text file.
THIS IS A TEXT FILE.
Unique lines are really rare.

మేము ఈ టెక్స్ట్ ఫైల్‌ను ఉపయోగించి ఇప్పటికే క్రమబద్ధీకరించామని గమనించండి క్రమబద్ధీకరించు కమాండ్ మీరు వేరే టెక్స్ట్ ఫైల్‌తో పనిచేస్తుంటే, కింది ఆదేశాన్ని ఉపయోగించి దాన్ని క్రమబద్ధీకరించవచ్చు:

sort filename.txt > sorted.txt

నకిలీ పంక్తులను తొలగించండి

యూనిక్ యొక్క అత్యంత ప్రాథమిక ఉపయోగం ఇన్‌పుట్ నుండి పునరావృత స్ట్రింగ్‌లను తీసివేయడం మరియు ప్రత్యేకమైన అవుట్‌పుట్‌ను ముద్రించడం.

uniq duplicate.txt

అవుట్‌పుట్:

లైన్ యొక్క రెండవ సంఘటనను సిస్టమ్ ప్రదర్శించదని గమనించండి ఇది టెక్స్ట్ ఫైల్ . అలాగే, పైన పేర్కొన్న ఆదేశం ఫైల్‌లోని ప్రత్యేక పంక్తులను మాత్రమే ప్రింట్ చేస్తుంది మరియు అసలు టెక్స్ట్ ఫైల్ యొక్క కంటెంట్‌ని ప్రభావితం చేయదు.

పునరావృత రేఖలను లెక్కించండి

టెక్స్ట్ ఫైల్‌లో పునరావృతమయ్యే పంక్తుల సంఖ్యను అవుట్‌పుట్ చేయడానికి, ఉపయోగించండి -సి డిఫాల్ట్ ఆదేశంతో ఫ్లాగ్ చేయండి.

uniq -c duplicate.txt

అవుట్‌పుట్:

టెక్స్ట్ ఫైల్‌లో ఉన్న ప్రతి లైన్ యొక్క గణనను సిస్టమ్ ప్రదర్శిస్తుంది. మీరు ఆ లైన్ చూడగలరు ఇది టెక్స్ట్ ఫైల్ ఫైల్‌లో రెండు సార్లు వస్తుంది. అప్రమేయంగా, యూనిక్ కమాండ్ కేస్ సెన్సిటివ్.

టెక్స్ట్ ఫైల్ నుండి నకిలీ పంక్తులను మాత్రమే ముద్రించడానికి, దీనిని ఉపయోగించండి -డి జెండా. ది -డి ఉన్నచో నకిలీ .

uniq -D duplicate.txt

సిస్టమ్ అవుట్‌పుట్‌ను ఈ విధంగా ప్రదర్శిస్తుంది.

This is a text file.
This is a text file.

నకిలీల కోసం తనిఖీ చేస్తున్నప్పుడు ఫీల్డ్‌లను దాటవేయి

స్ట్రింగ్‌లతో సరిపోలేటప్పుడు మీరు నిర్దిష్ట సంఖ్యలో ఫీల్డ్‌లను దాటవేయాలనుకుంటే, మీరు దీనిని ఉపయోగించవచ్చు -f ఆదేశంతో జెండా. ది -f ఉన్నచో ఫీల్డ్ .

కింది టెక్స్ట్ ఫైల్‌ని పరిగణించండి fields.txt .

192.168.0.1 TCP
127.0.0.1 TCP
354.231.1.1 TCP
Linux FS
Windows FS
macOS FS

మొదటి ఫీల్డ్‌ని దాటవేయడానికి:

uniq -f 1 fields.txt

అవుట్‌పుట్:

192.168.0.1 TCP
Linux FS

పైన పేర్కొన్న ఆదేశం మొదటి ఫీల్డ్ (IP చిరునామాలు మరియు OS పేర్లు) దాటవేయబడింది మరియు రెండవ పదంతో (TCP మరియు FS) సరిపోలింది. అప్పుడు, ఇది ప్రతి మ్యాచ్ యొక్క మొదటి సంఘటనను అవుట్‌పుట్‌గా ప్రదర్శిస్తుంది.

పోల్చినప్పుడు అక్షరాలను విస్మరించండి

ఫీల్డ్‌లను దాటవేయడం వలె, మీరు అక్షరాలను కూడా దాటవేయవచ్చు. ది -ఎస్ నకిలీ పంక్తులను సరిపోల్చేటప్పుడు దాటవేయడానికి అక్షరాల సంఖ్యను పేర్కొనడానికి జెండా మిమ్మల్ని అనుమతిస్తుంది. మీరు పని చేస్తున్న డేటా జాబితా రూపంలో ఈ క్రింది విధంగా ఉన్నప్పుడు ఈ ఫీచర్ సహాయపడుతుంది:

యాపిల్ మ్యూజిక్ నా మ్యూజిక్ మొత్తం డిలీట్ చేసింది
1. First
2. Second
3. Second
4. Second
5. Third
6. Third
7. Fourth
8. Fifth

ఫైల్‌లోని మొదటి రెండు అక్షరాలను (జాబితా సంఖ్యలను) విస్మరించడానికి list.txt :

uniq -s 2 list.txt

అవుట్‌పుట్:

పై అవుట్‌పుట్‌లో, మొదటి రెండు అక్షరాలు విస్మరించబడ్డాయి మరియు మిగిలినవి ప్రత్యేకమైన పంక్తుల కోసం సరిపోలాయి.

నకిలీల కోసం మొదటి N అక్షరాల సంఖ్యను తనిఖీ చేయండి

ది -ఇన్ నకిలీల కోసం నిర్ణీత సంఖ్యలో అక్షరాలను మాత్రమే తనిఖీ చేయడానికి జెండా మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకి:

uniq -w 2 duplicate.txt

పైన పేర్కొన్న ఆదేశం మొదటి రెండు అక్షరాలకు మాత్రమే సరిపోతుంది మరియు ఏదైనా ప్రత్యేకమైన పంక్తులు ముద్రించబడతాయి.

అవుట్‌పుట్:

కేస్ సెన్సిటివిటీని తొలగించండి

పైన చెప్పినట్లుగా, ఒక ఫైల్‌లోని పంక్తులను సరిపోల్చేటప్పుడు యూనిక్ కేస్ సెన్సిటివ్‌గా ఉంటుంది. అక్షర కేసును విస్మరించడానికి, ఉపయోగించండి -ఐ ఆదేశంతో ఎంపిక.

uniq -i duplicate.txt

మీరు ఈ క్రింది అవుట్‌పుట్‌ను చూస్తారు.

పై అవుట్‌పుట్‌లోని నోటీసు, యూనిక్ పంక్తులను ప్రదర్శించలేదు దీనిని పట్టుకోండి మరియు ఇది ఒక టెక్స్ట్ ఫైల్ .

ఫైల్‌కు అవుట్‌పుట్ పంపండి

యూనిక్ కమాండ్ యొక్క అవుట్‌పుట్‌ను ఫైల్‌కు పంపడానికి, మీరు దీనిని ఉపయోగించవచ్చు అవుట్‌పుట్ దారి మళ్లింపు ( > ) కింది విధంగా పాత్ర:

uniq -i duplicate.txt > otherfile.txt

టెక్స్ట్ ఫైల్‌కు అవుట్‌పుట్‌ను పంపుతున్నప్పుడు, సిస్టమ్ కమాండ్ యొక్క అవుట్‌పుట్‌ను ప్రదర్శించదు. మీరు ఉపయోగించి కొత్త ఫైల్ యొక్క కంటెంట్‌ను తనిఖీ చేయవచ్చు పిల్లి కమాండ్

cat otherfile.txt

మీరు ఇతర మార్గాలను కూడా ఉపయోగించవచ్చు Linux లోని ఫైల్‌కు కమాండ్ లైన్ అవుట్‌పుట్ పంపండి .

యూనిక్‌తో డూప్లికేట్ డేటాను విశ్లేషించడం

Linux సర్వర్‌లను మేనేజ్ చేస్తున్నప్పుడు చాలా సార్లు, మీరు టెర్మినల్‌లో పని చేస్తారు లేదా టెక్స్ట్ ఫైల్‌లను ఎడిట్ చేస్తారు. అందువల్ల, టెక్స్ట్ ఫైల్‌లోని పంక్తుల పునరావృత కాపీలను ఎలా తొలగించాలో తెలుసుకోవడం మీ లైనక్స్ నైపుణ్య సమితికి గొప్ప ఆస్తిగా ఉంటుంది.

ఫైల్‌లోని వచనాన్ని ఫిల్టర్ చేయడం మరియు క్రమబద్ధీకరించడం మీకు తెలియకపోతే టెక్స్ట్ ఫైల్‌లతో పని చేయడం నిరాశపరిచింది. మీ పనిని సులభతరం చేయడానికి, లైనక్స్‌లో అనేక టెక్స్ట్ ఎడిటింగ్ ఆదేశాలు ఉన్నాయి సెడ్ మరియు అవాక్ ఇది టెక్స్ట్ ఫైల్స్ మరియు కమాండ్-లైన్ అవుట్‌పుట్‌లతో సమర్థవంతంగా పని చేయడానికి మిమ్మల్ని అనుమతిస్తుంది.

షేర్ చేయండి షేర్ చేయండి ట్వీట్ ఇమెయిల్ ఈ 10 సెడ్ ఉదాహరణలు మిమ్మల్ని లైనక్స్ పవర్ యూజర్‌గా చేస్తాయి

లైనక్స్ పవర్ యూజర్ కావాలనుకుంటున్నారా? సెడ్‌తో పట్టు పొందడం సహాయపడుతుంది. ఈ 10 సెడ్ ఉదాహరణల నుండి నేర్చుకోండి.

తదుపరి చదవండి
సంబంధిత అంశాలు
  • లైనక్స్
  • లైనక్స్
రచయిత గురుంచి దీపేశ్ శర్మ(79 కథనాలు ప్రచురించబడ్డాయి)

దీపేశ్ MUO లో Linux కి జూనియర్ ఎడిటర్. అతను కొత్తగా వచ్చిన వారందరికీ ఆనందకరమైన అనుభూతిని అందించాలనే లక్ష్యంతో లైనక్స్‌లో సమాచార మార్గదర్శకాలను వ్రాస్తాడు. సినిమాల గురించి ఖచ్చితంగా తెలియదు, కానీ మీరు టెక్నాలజీ గురించి మాట్లాడాలనుకుంటే, అతను మీ వ్యక్తి. అతని ఖాళీ సమయంలో, అతను పుస్తకాలు చదవడం, విభిన్న సంగీత ప్రక్రియలు వినడం లేదా అతని గిటార్ వాయించడం మీరు చూడవచ్చు.

దీపేశ్ శర్మ నుండి మరిన్ని

మా వార్తాలేఖకు సభ్యత్వాన్ని పొందండి

టెక్ చిట్కాలు, సమీక్షలు, ఉచిత ఈబుక్‌లు మరియు ప్రత్యేకమైన డీల్స్ కోసం మా వార్తాలేఖలో చేరండి!

సభ్యత్వం పొందడానికి ఇక్కడ క్లిక్ చేయండి