डेटा विज्ञान के लिए R का उपयोग कैसे करें
Tags Using R for Data Science,डेटा साइंस के लिए आर का उपयोग करना
डेटा विज्ञान में रुचि रखने वालों को आर प्रोग्रामिंग भाषा सीखने में रुचि हो सकती है। डेटा विज्ञान के लिए आर का उपयोग सांख्यिकीय विश्लेषण और अन्य कार्यों के लिए किया जा सकता है। आर सीखने के लिए अपने रास्ते पर चलने के कई तरीके हैं। डेटा विज्ञान में आर, आर बनाम पायथन, आर के वास्तविक दुनिया अनुप्रयोगों, आर के लिए सर्वोत्तम ऐड-ऑन पैकेज और अधिक के बारे में अधिक जानने के लिए पढ़ते रहें।
डेटा साइंस में R क्या है?
आर फाउंडेशन एक गैर-लाभकारी संस्था जो आर प्रोजेक्ट के माध्यम से आर के निरंतर विकास का समर्थन करने पर केंद्रित है, आर को "सांख्यिकीय कंप्यूटिंग और ग्राफिक्स के लिए एक भाषा और वातावरण" के रूप में वर्णित करती है। लेकिन, यदि आप डेटा विज्ञान के लिए आर से परिचित हैं, तो आप शायद जानते हैं कि यह उससे कहीं अधिक है।
आर को 1990 के दशक में न्यूजीलैंड में ऑकलैंड विश्वविद्यालय में रॉस इहाका और रॉबर्ट जेंटलमैनएक्सटर्नल द्वारा बनाया गया था। आर भाषा को जॉन चेम्बर्स और अन्य कर्मचारियों द्वारा बेल प्रयोगशालाओं में विकसित एस भाषा के आधार पर तैयार किया गया था। आज, R एक ओपन-सोर्स भाषा है; यह कई प्रणालियों और प्लेटफार्मों के साथ संगत एक मुफ्त सॉफ्टवेयर के रूप में उपलब्ध है।
डेटा विज्ञान में आर के बारे में जानने योग्य कुछ महत्वपूर्ण बातें यहां दी गई हैं:
आर एक ओपन-सोर्स सॉफ्टवेयर है। आर मुफ़्त और अनुकूलनीय है क्योंकि यह एक ओपन-सोर्स सॉफ़्टवेयर है। आर के खुले इंटरफेस इसे अन्य अनुप्रयोगों और प्रणालियों के साथ एकीकृत करने की अनुमति देते हैं। ओपन-सोर्स सॉफ़्टवेयर में गुणवत्ता का उच्च मानक होता है क्योंकि कई लोग उनका उपयोग करते हैं और उन्हें दोहराते हैं।
- R एक प्रोग्रामिंग भाषा है. एक प्रोग्रामिंग भाषा के रूप में, आर ऑब्जेक्ट, ऑपरेटर और फ़ंक्शंस प्रदान करता है जो उपयोगकर्ताओं को डेटा का पता लगाने, मॉडल करने और विज़ुअलाइज़ करने की अनुमति देता है।
- R का उपयोग डेटा विश्लेषण के लिए किया जाता है। डेटा विज्ञान में आर का उपयोग डेटा को संभालने, संग्रहीत करने और विश्लेषण करने के लिए किया जाता है। इसका उपयोग डेटा विश्लेषण और सांख्यिकीय मॉडलिंग के लिए किया जा सकता है।
- आर सांख्यिकीय विश्लेषण के लिए एक वातावरण है। आर में विभिन्न सांख्यिकीय और ग्राफिकल क्षमताएं हैं। आर फाउंडेशन नोट करता है कि इसका उपयोग वर्गीकरण, क्लस्टरिंग, सांख्यिकीय परीक्षण और रैखिक और गैर-रेखीय मॉडलिंग के लिए किया जा सकता है।
- आर एक समुदाय है. आर प्रोजेक्ट योगदानकर्ता में ऐसे व्यक्ति शामिल हैं जिन्होंने सुधार का सुझाव दिया है, बग नोट किए हैं और ऐड-ऑन पैकेज बनाए हैं। जबकि 20 से अधिक आधिकारिक योगदानकर्ता हैं, आर समुदाय स्वयं ओपन-सोर्स सॉफ़्टवेयर का उपयोग करने वालों तक फैला हुआ है।
आर बनाम पायथन
पायथन और आर दोनों ओपन-सोर्स सॉफ़्टवेयर भाषाएँ हैं जो कुछ समय से मौजूद हैं। आर बनाम पायथन की तुलना करते समय, कुछ लोगों को लगता है कि पायथन एक अधिक सामान्य प्रोग्रामिंग भाषा है। पायथन को अक्सर प्रारंभिक प्रोग्रामिंग पाठ्यक्रमों में पढ़ाया जाता है और यह कई मशीन लर्निंग वर्कफ़्लो के लिए प्राथमिक भाषा है। RStudio की रिपोर्ट। आर का उपयोग आमतौर पर सांख्यिकीय कंप्यूटिंग में किया जाता है। RStudio नोट करता है कि R को अक्सर सांख्यिकी और डेटा विज्ञान पाठ्यक्रमों में पढ़ाया जाता है। इसमें कहा गया है कि कई मशीन लर्निंग इंटरफेस पायथन में लिखे गए हैं, जबकि कई सांख्यिकीय तरीके आर में लिखे गए हैं।
आर बनाम पायथन वातावरण के संदर्भ में, आर वातावरण डेटा हेरफेर और ग्राफ़िंग के लिए आदर्श है। कुछ पायथॉन अनुप्रयोगों में वेब विकास, संख्यात्मक कंप्यूटिंग और सॉफ्टवेयर विकास शामिल हैं। इसके अतिरिक्त, जबकि आर के पास कई पैकेज हैं, पायथन के पास डेटा विज्ञान के लिए समर्पित कई पुस्तकालय हैं।
आर बनाम पायथन बेहतर है या नहीं, यह इस बात पर निर्भर करता है कि आप प्रत्येक का उपयोग किस लिए कर रहे हैं। दोनों भाषाओं का जानकार होना डेटा साइंस में फायदेमंद हो सकता है। वास्तव में, RStudio का कहना है कि कई डेटा विज्ञान टीमें "द्विभाषी" हैं, जो R और Python दोनों का उपयोग करती हैं।
डेटा साइंस में R का उपयोग कैसे किया जाता है?
डेटा विज्ञान के लिए आर भाषा के सांख्यिकीय और ग्राफिकल उपयोग पर केंद्रित है। जब आप डेटा विज्ञान के लिए आर सीखते हैं, तो आप सीखेंगे कि सांख्यिकीय विश्लेषण करने और डेटा विज़ुअलाइज़ेशन विकसित करने के लिए भाषा का उपयोग कैसे करें। आर के सांख्यिकीय कार्य डेटा को साफ़ करना, आयात करना और विश्लेषण करना भी आसान बनाते हैं।
यह एक एकीकृत विकास पर्यावरण (आईडीई) से सुसज्जित हो सकता है। कंप्यूटर सॉफ्टवेयर कंपनी GitHub के अनुसार, IDE का उद्देश्य सॉफ्टवेयर पैकेज के साथ लिखना और काम करना आसान बनाना है। RStudioआर के लिए एक आईडीई है जो ग्राफिक्स की पहुंच में सुधार करता है और इसमें एक सिंटैक्स-हाइलाइटिंग संपादक शामिल है जो कोड निष्पादन में मदद करता है। जब आप डेटा विज्ञान के लिए आर सीखना शुरू करेंगे तो यह मददगार हो सकता है।
डेटा विज्ञान परियोजनाएँ जो आर का उपयोग करती हैं
डेटा विज्ञान के लिए आर का उपयोग बैंकिंग, दूरसंचार और मीडिया जैसे उद्योगों में किया जाता है। नीचे हम वास्तविक जीवन की परियोजनाओं के माध्यम से आर में डेटा विज़ुअलाइज़ेशन के उदाहरण तलाशते हैं।
टी-मोबाइल: अंतरराष्ट्रीय संचार कंपनी ग्राहक सेवा टेक्स्ट को वर्गीकृत करने के लिए आर का उपयोग करती है। टी-मोबाइल ने GitHub पर अपने मैसेजिंग वर्गीकरण एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस का एक ओपन-सोर्स संस्करण भी साझा किया।
ट्विटर: आर का उपयोग ट्वीट्स का टेक्स्ट विश्लेषण करने के लिए किया जा सकता है। टेक्स्ट एनालिटिक्स और ट्विटर डेटा की स्क्रैपिंग twitteR पैकेज के माध्यम से संभव है ।
Google Analytics: Google डेवलपर्स के अनुसार, सांख्यिकीय विश्लेषण को पूरा करने और स्पष्ट डेटा विज़ुअलाइज़ेशन बनाने के लिए R को Google Analytics डेटा के साथ जोड़ा जा सकता है। RGoogleAnalytics package इंस्टॉल करने से ये जानकारियां सक्षम हो जाएंगी।
द फाइनेंशियल टाइम्स: द फाइनेंशियल टाइम्स ने डेटा विज़ुअलाइज़ेशन बनाने के लिए आर को अपनाया, ने अपने लेख में कहा, "क्या रूस-सऊदी अरब अब तक का सबसे खराब विश्व कप खेल है?," रेवोल्यूशन की रिपोर्ट। विज़ुअलाइज़ेशन ने 1998 के बाद से प्रत्येक विश्व कप मैच को मैप किया और आर और जीजीप्लॉट2 का उपयोग करके बनाया गया था।
बीबीसी: इसी तरह, रिवोल्यूशन्स बताते हैं कि कैसे बीबीसी अपने प्रकाशनों के लिए ग्राफिक्स बनाने के लिए R में डेटा विज़ुअलाइज़ेशन का उपयोग करता है। बीबीसी ने अपने डेटा विज़ुअलाइज़ेशन ग्राफिक निर्माण प्रक्रिया को मानकीकृत करने के लिए एक आर पैकेज और आर कुकबुक विकसित किया। इसकी कुकबुक बीबीप्लॉट पैकेजपर आधारित है। बीबीसी इस प्रक्रिया को सीखने के लिए अपने डेटा पत्रकारों को छह सप्ताह का प्रशिक्षण प्रदान करता है।
आर के लिए सर्वश्रेष्ठ ऐड-ऑन पैकेज
ऐसे कई पैकेज हैं जिन्हें आप आर का उपयोग करने में सहायता के लिए स्थापित करने पर विचार कर सकते हैं। आरस्टूडियोएक्सटर्नल से अनुशंसित पैकेजों की सूची के आधार पर डेटा विज्ञान के लिए नीचे कुछ आर पैकेज दिए गए हैं।
डीबीआई आर और डेटाबेस प्रबंधन प्रणालियों के बीच बुनियादी संचार में मदद करता है।
RMySQL, RSQLite और अन्य डेटाबेस ड्राइवर डेटाबेस से डेटा लोड करने और पढ़ने में सहायता करते हैं।
स्ट्रिंगर में उपयोगकर्ता के अनुकूल उपकरण शामिल हैं जो कैरेक्टर स्ट्रिंग्स और नियमित अभिव्यक्तियों के साथ काम करते हैं।
dplyr डेटासेट को सारांशित करने, जोड़ने और पुनर्व्यवस्थित करने के लिए कार्य प्रदान करता है।
लुब्रिडेट विभिन्न अवधियों में दिनांकों और समय के साथ काम करने की सुविधा प्रदान करता है।
ggplot2 दिखने में आकर्षक प्लॉट और ग्राफिक्स बनाना आसान बनाने के लिए जाना जाता है।
आरजीएल आर के साथ त्रि-आयामी, इंटरैक्टिव विज़ुअलाइज़ेशन सक्षम करता है जिसमें आप विज़ुअलाइज़ेशन के कुछ हिस्सों को घुमा सकते हैं और ज़ूम इन कर सकते हैं।
रैंडमफ़ॉरेस्ट एक मशीन लर्निंग पैकेज है जिसका उपयोग बिना पर्यवेक्षित शिक्षण में भी किया जा सकता है।
कैरेट प्रशिक्षण वर्गीकरण और प्रतिगमन मॉडल के लिए सहायक है।
शाइनी डेटा विज्ञान के लिए एक आर पैकेज है जो आपको वेब ऐप्स बनाने में मदद करता है।
जब आपको अपने आर प्रोजेक्ट को अंतिम दस्तावेज़ में पेस्ट करने की आवश्यकता होती है तो xtable HTML या लेटेक्स कोड प्रदान करता है।
जीजीमैप डेटा विज्ञान के लिए कई आर पैकेजों में से एक है जो स्थानिक डेटा में मदद करता है; यह आपको Google मानचित्र से मानचित्र क्षेत्रों को डाउनलोड करने और उन्हें ggplots में एकीकृत करने देता है।
xts में समय श्रृंखला डेटासेट के साथ काम करने के लिए उपकरण शामिल हैं।
XML, XML दस्तावेज़ों के साथ काम करने में सहायता करता है।
httr http कनेक्शन के साथ काम करने में सहायता करता है।
Devtools आपको अपना स्वयं का R पैकेज बनाने में मदद करता है।