డేటా విశ్లేషకుడిగా, మీరు తరచుగా బహుళ డేటాసెట్లను కలపవలసిన అవసరాన్ని ఎదుర్కొంటారు. మీ విశ్లేషణను పూర్తి చేసి, మీ వ్యాపారం/స్టేక్హోల్డర్ల కోసం ఒక నిర్ణయానికి రావడానికి మీరు దీన్ని చేయాల్సి ఉంటుంది.
విభిన్న పట్టికలలో నిల్వ చేయబడినప్పుడు డేటాను సూచించడం తరచుగా సవాలుగా ఉంటుంది. అటువంటి పరిస్థితులలో, మీరు పని చేస్తున్న ప్రోగ్రామింగ్ భాషతో సంబంధం లేకుండా చేరినవారు తమ విలువను నిరూపించుకుంటారు.
రోజు యొక్క వీడియోను తయారు చేయండి
పైథాన్ జాయిన్లు SQL జాయిన్స్ లాగా ఉంటాయి: అవి సాధారణ సూచికలో వాటి వరుసలను సరిపోల్చడం ద్వారా డేటా సెట్లను మిళితం చేస్తాయి.
సూచన కోసం రెండు డేటాఫ్రేమ్లను సృష్టించండి
ఈ గైడ్లోని ఉదాహరణలను అనుసరించడానికి, మీరు రెండు నమూనా డేటాఫ్రేమ్లను సృష్టించవచ్చు. ID, మొదటి పేరు మరియు చివరి పేరును కలిగి ఉన్న మొదటి DataFrameని సృష్టించడానికి క్రింది కోడ్ని ఉపయోగించండి.
import pandas as pd
a = pd.DataFrame({"ID": ["001", "002", "003", "004", "005"],
"Fname": ["Ron", "John", "Helen", "Jenny", "Kenny"],
"Lname": ["Keith", "Harley", "Smith", "Kerr-Hislop", "Barber"]})
print(a)
మొదటి దశ కోసం, దిగుమతి చేయండి పాండాలు గ్రంధాలయం. అప్పుడు మీరు వేరియబుల్ ఉపయోగించవచ్చు, a , డేటాఫ్రేమ్ కన్స్ట్రక్టర్ నుండి ఫలితాన్ని నిల్వ చేయడానికి. మీకు అవసరమైన విలువలను కలిగి ఉన్న నిఘంటువును కన్స్ట్రక్టర్కు పంపండి.
చివరగా, మీరు ఆశించిన విధంగా ప్రతిదీ కనిపిస్తుందని తనిఖీ చేయడానికి, ప్రింట్ ఫంక్షన్తో డేటాఫ్రేమ్ విలువలోని కంటెంట్లను ప్రదర్శించండి.
అదేవిధంగా, మీరు మరొక డేటాఫ్రేమ్ని సృష్టించవచ్చు, బి , ఇది ID మరియు జీతం విలువలను కలిగి ఉంటుంది.
b = pd.DataFrame({"ID": ["001", "002", "003", "004", "005"],
"Salary": [100000, 700000, 80000, 904750, 604772]})
print(b)
మీరు కన్సోల్ లేదా IDEలో అవుట్పుట్ని తనిఖీ చేయవచ్చు. ఇది మీ డేటాఫ్రేమ్ల కంటెంట్లను నిర్ధారించాలి:
పైథాన్లోని మెర్జ్ ఫంక్షన్ నుండి జాయిన్లు ఎలా విభిన్నంగా ఉంటాయి?
డేటాఫ్రేమ్లను మార్చేందుకు మీరు ఉపయోగించే ప్రధాన లైబ్రరీలలో పాండాస్ లైబ్రరీ ఒకటి. DataFrames బహుళ డేటా సెట్లను కలిగి ఉన్నందున, వాటిని చేరడానికి పైథాన్లో వివిధ విధులు అందుబాటులో ఉన్నాయి.
పైథాన్ మీరు డేటాఫ్రేమ్లను కలపడానికి ఉపయోగించే అనేక ఇతర వాటిలో చేరడం మరియు విలీనం చేయడం వంటి ఫంక్షన్లను అందిస్తుంది. ఈ రెండు ఫంక్షన్ల మధ్య పూర్తి వ్యత్యాసం ఉంది, వీటిని ఉపయోగించే ముందు మీరు గుర్తుంచుకోవాలి.
జాయిన్ ఫంక్షన్ వాటి ఇండెక్స్ విలువల ఆధారంగా రెండు డేటాఫ్రేమ్లను కలుపుతుంది. ది విలీనం ఫంక్షన్ డేటాఫ్రేమ్లను మిళితం చేస్తుంది సూచిక విలువలు మరియు నిలువు వరుసల ఆధారంగా.
పైథాన్లో చేరడం గురించి మీరు ఏమి తెలుసుకోవాలి?
అందుబాటులో ఉన్న చేరికల రకాలను చర్చించే ముందు, ఇక్కడ గమనించవలసిన కొన్ని ముఖ్యమైన విషయాలు ఉన్నాయి:
- SQL జాయిన్లు అత్యంత ప్రాథమిక విధుల్లో ఒకటి మరియు పైథాన్ యొక్క చేరికలను పోలి ఉంటాయి.
- DataFramesలో చేరడానికి, మీరు వీటిని ఉపయోగించవచ్చు pandas.DataFrame.join() పద్ధతి.
- డిఫాల్ట్ జాయిన్ ఎడమ చేరడాన్ని నిర్వహిస్తుంది, అయితే విలీన ఫంక్షన్ అంతర్గత చేరికను నిర్వహిస్తుంది.
పైథాన్ చేరడానికి డిఫాల్ట్ సింటాక్స్ క్రింది విధంగా ఉంటుంది:
DataFrame.join(other, on=None, how='left/right/inner/outer', lsuffix='', rsuffix='',
sort=False)
మొదటి డేటాఫ్రేమ్లో చేరిక పద్ధతిని ప్రారంభించండి మరియు రెండవ డేటాఫ్రేమ్ను దాని మొదటి పారామీటర్గా పాస్ చేయండి, ఇతర . మిగిలిన వాదనలు:
- పై , ఇది ఒకటి కంటే ఎక్కువ ఉంటే, చేరడానికి సూచికకు పేరు పెడుతుంది.
- ఎలా , ఏది లోపలి, బాహ్య, ఎడమ మరియు కుడితో సహా చేరిక రకాన్ని నిర్వచిస్తుంది.
- పదప్రత్యయం , ఏది మీ నిలువు వరుస పేరు యొక్క ఎడమ ప్రత్యయం స్ట్రింగ్ను నిర్వచిస్తుంది.
- పదప్రత్యయం , ఏది మీ నిలువు వరుస పేరు యొక్క కుడి ప్రత్యయం స్ట్రింగ్ను నిర్వచిస్తుంది.
- క్రమబద్ధీకరించు , ఏది ఫలితంగా వచ్చే డేటాఫ్రేమ్ను క్రమబద్ధీకరించాలా వద్దా అని సూచించే బూలియన్.
పైథాన్లో వివిధ రకాల చేరికలను ఉపయోగించడం నేర్చుకోండి
పైథాన్ కొన్ని చేరిక ఎంపికలను కలిగి ఉంది, మీరు గంట అవసరాన్ని బట్టి వ్యాయామం చేయవచ్చు. చేరిక రకాలు ఇక్కడ ఉన్నాయి:
ఒకరి గురించి ఎలా తెలుసుకోవాలి
1. ఎడమ చేరండి
ఎడమ చేరిక మొదటి డేటాఫ్రేమ్ విలువలను చెక్కుచెదరకుండా ఉంచుతుంది మరియు రెండవ దాని నుండి సరిపోలే విలువలను తీసుకువస్తుంది. ఉదాహరణకు, మీరు నుండి సరిపోలే విలువలను తీసుకురావాలనుకుంటే బి , మీరు దానిని ఈ క్రింది విధంగా నిర్వచించవచ్చు:
c = a.join(b, how="left", lsuffix = "_left", rsuffix = "_right", sort = True)
print(c)
ప్రశ్నను అమలు చేసినప్పుడు, అవుట్పుట్ కింది నిలువు వరుస సూచనలను కలిగి ఉంటుంది:
- ID_ఎడమ
- పేరు
- పేరు
- ID_కుడి
- జీతం
ఈ చేరిక మొదటి డేటాఫ్రేమ్ నుండి మొదటి మూడు నిలువు వరుసలను మరియు రెండవ డేటాఫ్రేమ్ నుండి చివరి రెండు నిలువు వరుసలను లాగుతుంది. ఇది ఉపయోగించింది పదప్రత్యయం మరియు పదప్రత్యయం రెండు డేటాసెట్ల నుండి ID నిలువు వరుసల పేరు మార్చడానికి విలువలు, ఫలితంగా ఫీల్డ్ పేర్లు ప్రత్యేకంగా ఉన్నాయని నిర్ధారిస్తుంది.
అవుట్పుట్ క్రింది విధంగా ఉంది:
2. కుడి చేరండి
మొదటి పట్టిక నుండి సరిపోలే విలువలను తీసుకువస్తున్నప్పుడు కుడి చేరిక రెండవ డేటాఫ్రేమ్ విలువలను అలాగే ఉంచుతుంది. ఉదాహరణకు, మీరు నుండి సరిపోలే విలువలను తీసుకురావాలనుకుంటే a , మీరు దానిని ఈ క్రింది విధంగా నిర్వచించవచ్చు:
c = b.join(a, how="right", lsuffix = "_right", rsuffix = "_left", sort = True)
print(c)
అవుట్పుట్ క్రింది విధంగా ఉంది:
మీరు కోడ్ను సమీక్షిస్తే, కొన్ని స్పష్టమైన మార్పులు ఉన్నాయి. ఉదాహరణకు, ఫలితం మొదటి డేటాఫ్రేమ్కు ముందు రెండవ డేటాఫ్రేమ్ నిలువు వరుసలను కలిగి ఉంటుంది.
మీరు విలువను ఉపయోగించాలి కుడి కొరకు ఎలా కుడి చేరికను పేర్కొనడానికి వాదన. అలాగే, మీరు ఎలా మారవచ్చో గమనించండి పదప్రత్యయం మరియు పదప్రత్యయం సరైన చేరిక యొక్క స్వభావాన్ని ప్రతిబింబించే విలువలు.
మీ రెగ్యులర్ జాయిన్లలో, కుడివైపు చేరిన వాటితో పోలిస్తే, మీరు ఎడమ, లోపలి మరియు బయటి జాయిన్లను ఎక్కువగా ఉపయోగిస్తున్నారని మీరు కనుగొనవచ్చు. అయితే, వినియోగం పూర్తిగా మీ డేటా అవసరాలపై ఆధారపడి ఉంటుంది.
3. ఇన్నర్ జాయిన్
ఒక అంతర్గత చేరిక రెండు డేటాఫ్రేమ్ల నుండి సరిపోలే ఎంట్రీలను అందిస్తుంది. చేరడం వరుసలను సరిపోల్చడానికి సూచిక సంఖ్యలను ఉపయోగిస్తుంది కాబట్టి, లోపలి చేరడం సరిపోలే అడ్డు వరుసలను మాత్రమే అందిస్తుంది. ఈ ఉదాహరణ కోసం, కింది రెండు డేటాఫ్రేమ్లను ఉపయోగించుకుందాం:
a = pd.DataFrame({"ID": ["001", "002", "003", "004", "005", "006", "007"],
"Fname": ["Ron", "John", "Helen", "Jenny", "Kenny", "Daryl", "Cathy"],
"Lname": ["Keith", "Harley", "Smith", "Kerr-Hislop", "Barber", "Hooper", "Hope"]})
b = pd.DataFrame({"ID": ["001", "002", "003", "004", "005"],
"Salary": [100000, 700000, 80000, 904750, 604772]})
print(a)
print(b)
అవుట్పుట్ క్రింది విధంగా ఉంది:
ఎక్సెల్లో వచనాన్ని ఎలా దాచాలి
మీరు ఈ క్రింది విధంగా అంతర్గత చేరికను ఉపయోగించవచ్చు:
c = a.join(b, lsuffix="_left", rsuffix="_right", how='inner')
print(c)
ఫలిత అవుట్పుట్ రెండు ఇన్పుట్ డేటాఫ్రేమ్లలో ఉన్న అడ్డు వరుసలను మాత్రమే కలిగి ఉంటుంది:
4. ఔటర్ జాయిన్
బయటి చేరడం రెండు డేటాఫ్రేమ్ల నుండి అన్ని విలువలను అందిస్తుంది. సరిపోలే విలువలు లేని అడ్డు వరుసల కోసం, ఇది వ్యక్తిగత సెల్లపై శూన్య విలువను ఉత్పత్తి చేస్తుంది.
పైన పేర్కొన్న అదే డేటాఫ్రేమ్ని ఉపయోగించి, ఔటర్ జాయిన్ కోసం ఇక్కడ కోడ్ ఉంది:
c = a.join(b, lsuffix="_left", rsuffix="_right", how='outer')
print(c)
పైథాన్లో జాయిన్లను ఉపయోగించడం
జాయిన్స్, వాటి కౌంటర్పార్ట్ ఫంక్షన్లు, మెర్జ్ మరియు కన్కాట్ వంటివి సాధారణ చేరిక కార్యాచరణ కంటే ఎక్కువ మార్గాన్ని అందిస్తాయి. దాని ఎంపికలు మరియు ఫంక్షన్ల శ్రేణిని బట్టి, మీరు మీ అవసరాలకు అనుగుణంగా ఎంపికలను ఎంచుకోవచ్చు.
మీరు పైథాన్ అందించే ఫ్లెక్సిబుల్ ఆప్షన్లతో, జాయిన్ ఫంక్షన్తో లేదా లేకుండా ఫలిత డేటాసెట్లను సాపేక్షంగా సులభంగా క్రమబద్ధీకరించవచ్చు.