CubeServ Blog
Stay up-to-date on the data-driven business with tools for analytics from SAP & Co. and do not miss any news, downloads & events.

Vodič za početnike za programski jezik R

R programski jezik jedan je od najpopularnijih jezika kada su u pitanju znanost o podacima i statistička analiza. To je uglavnom zato što je R posebno napravljen za statističke ključne brojke i analizu podataka. Dok je R razvijen ranih 90-ih, tek su se s usponom znanosti o podacima ljudi počeli oslanjati na njega.
U današnjem članku ćemo opsežno proći kroz programski jezik R. Saznat ćete zašto R jezik može biti neprocjenjivo bogatstvo za vas i naučit ćete kako ga postaviti. Ne brinite ako nemate predznanja u programiranju – sve ću vam objasniti od nule. Dakle, krenimo.

Zašto biste trebali koristiti R?

Kad sam prvi put naučio R jezik, bio sam pod dojmom da je prikladan samo za statistički rad. Međutim, kako sam napredovao dalje, moj se početni dojam o R-u pokazao pogrešnim. R zapravo ima puno više od samog statističkog rada. Pogledajmo neke od glavnih razloga zašto vam korištenje R može biti od velike koristi. 1. Lako se prilagođava Baš kao i Python, R ima vrlo laku sintaksu. Čak i ako nemate pozadinu programiranja i želite koristiti R samo za vizualizaciju ili analizu, lako možete naučiti razumjeti R jezik i raditi s njim. Dokumentacija je vrhunska i neće proći dugo dok ne počnete dobivati ​​ono što želite od jezika čak i ako imate samo malo ili nimalo programskih vještina. Također ga možete koristiti za druge zadatke kao što je automatizacija, npr. RPA. 2. Brza analiza/vizualizacija podataka Jedna od najboljih stvari kod R-a je ta što je u potpunosti prepun izvrsnih biblioteka. Zapravo, dostupno je više od 7800 paketa koji vam omogućuju trenutno obavljanje raznih računalnih i vizualizacijskih zadataka. Osim toga, dostupni su paketi za naprednu analitiku koji se rijetko nalaze u drugim programskim jezicima. Štoviše, R ima veliku podršku zajednice. Podatkovni znanstvenici i statističari diljem svijeta bit će spremni pružiti podršku u slučaju da vam zatreba pomoć. Postoje stotine dostupnih online foruma koji nude podršku. 3. Zgodna implementacija ML algoritama Implementacija algoritama strojnog učenja vrlo je brza i učinkovita kada je u pitanju R. Nećete se morati brinuti o svemu ispočetka kao što biste morali u JAVA. Umjesto toga, stvari su već stvorene i optimizirane za vas na apstraktnoj razini.

Osnovni elementi

Ako želite koristiti R jezik, bitno je razumjeti osnove. Stoga ćemo sada raspravljati o nekim od ključnih značajki R. Objekti Sve što vidite ili stvorite u R je u osnovi objekt. Nemojte se zbuniti s pojmom. Ne postoje posebni preduvjeti da se nešto deklarira kao objekt. Što god da je, ako postoji u R, to je objekt. Nadalje, postoje neke klase ovih objekata koje su navedene u nastavku:
  • Cijeli broj
  • Numerički
  • Lik
  • Logički (Boolean)
  • Kompleks
Opet, ne brinite o terminu ‘klasa’; moglo bi zvučati malo zbunjujuće ako nemate programsku pozadinu. Možete samo zamisliti klasu kao instancu objekta. Nadalje, svaka klasa ima skup atributa; tako je u osnovi definirana klasa. Baš kao što se ljudske značajke kao što su ime, visina, veličine koriste za opisivanje ljudi. Evo atributa:
  • Imena
  • Dimenzije
  • Duljina
  • Razred.

Vrste podataka

Osim primitivnih tipova objekata koje smo vidjeli gore, u R-u su dostupni različiti tipovi podataka koji se koriste u obradi podataka. Pogledajmo neke od najčešće korištenih tipova podataka zajedno s njihovom upotrebom. 1. Vektor Vektor je u biti popis objekata istog tipa — na primjer, vektor znakova, cijelih brojeva i tako dalje. Možete unijeti različite vrste objekata u isti vektor, ali R zatim pretvara različite tipove u istu klasu. Ovaj fenomen je poznat kao prisila. 2. Popis Ako vektor sadrži unose iste klase, mogli biste pitati, što se događa ako želite uključiti unose različitih klasa? Pa, popis može učiniti upravo to. Popisi su u osnovi posebna vrsta vektora koji može sadržavati objekte različitih klasa. 3. Matrice Matrice su dvodimenzionalni tipovi podataka koji mogu sadržavati podatke u 2d. Matrice se formiraju kada uvedete retke i stupce u vektore. Imajte na umu da matrica također može uključivati ​​podatke koji pripadaju istoj klasi. 4. Okvir podataka Ako ste aspirant u znanosti o podacima, ovo će vjerojatno biti vaša najčešće korištena vrsta podataka. Okviri podataka su tablični oblik tipa podataka koji može pohraniti i pregledati podatke samo kao Excel proračunska tablica. Ali ako su okviri podataka također 2d, moglo bi se zapitati koja je razlika između matrice i okvira podataka? Pa, okviri podataka mogu sadržavati podatke koji pripadaju različitim klasama.

Neki korisni R paketi

Kao što je već spomenuto, postoji ogroman popis R paketa koji se mogu koristiti, ovisno o zahtjevima. Često radim sa:
  • ggplot2: paket za izradu jednostavnih grafova
  • dplyr je paket koji se može koristiti za manipulaciju podacima
  • tidyr pomaže u stvaranju prilagođenih podataka.
  • shiny stvara web aplikaciju bez JavaScripta.
  • quantmod: kvantitativni financijski modeli – financijski podaci se lako mogu preuzeti i analizirati online s Yahooa i Google Financea. Na primjer, s naredbama > DAX <- getSymbols(“^GDAXI”, auto.assign = FALSE) > plot(DAX$GDAXI.Close) možete pročitati sve cijene DAX-a od 2007. i nacrtati zaključne cijene.
  • bigmemory: Ako podaci ne stanu u glavnu memoriju.
  • sqldf: SQL na podacima
  • DBI: Baza podataka Interfa

Instalacija R / RStudia

Samo proučavanje teorije nikada nije dovoljno dobro. Kad god naučite nešto novo, važno je konsolidirati svoje vještine kroz praksu. Stoga preporučam da sada preuzmete RStudio kako biste započeli s R. Jednostavno slijedite dolje navedene korake i uskoro ćete imati spreman IDE.

1. Instalirajte R

https://cran.r-project.org/bin/windows/base/ Samo naprijed i preuzmite programski jezik R na svoj stroj.

2. Preuzmite RStudio

Ako ste prije programirali, znate da samo preuzimanje jezika nije dovoljno, a također morate preuzeti i instalirati IDE za kodiranje na tom jeziku. Dakle, preuzmimo RStudio, IDE za programiranje u R. Kliknite na link za otvaranje službene web stranice RStudia: https://www.rstudio.com/products/rstudio/download/#download Napomena: Ova je veza samo za korisnike sustava Windows. Ako koristite neki drugi OS kao što je Mac ili Linux, pomaknite se prema dolje da biste vidjeli dostupne veze za svoj OS. Nakon što kliknete na gumb za preuzimanje, datoteka za postavljanje automatski će se početi preuzimati. Možda ćete morati pričekati nekoliko minuta da završite postupak preuzimanja, ovisno o brzini vaše internetske veze.

3. Instaliranje RStudia

Nakon što preuzmete datoteku za postavljanje, otvorite je i čarobnjak za postavljanje otvorit će se u sljedećem koraku.
Once the setup is complete, click the Finish button as shown below.
That's it! You have successfully installed RStudio, and you're ready to start coding!

Instalacija R paketa

first view starting RStudio
Kao što je već spomenuto, R treba pakete. Ovaj odjeljak će vam pokazati kako se različiti paketi mogu instalirati u RStudio. Otvorite RStudio iz trake za pretraživanje sustava Windows i kliknite na konzolu. Ako želite instalirati ggpot2. na primjer, možete koristiti sljedeću vezu: Install.package(“ggplot2”) To je sve što trebate učiniti. Ako prvi instalirate paket, možda će postojati neke CRAN ovisnosti koje će se automatski instalirati. Preporučam da ih za sada zanemarite. Također, možete upisati ovu instalacijsku naredbu u bilježnicu ili R datoteku i izvršiti je, ali smatram da je konzola bolja za tako kratke zadatke.

Učitajte datoteku

Na primjer, ako želimo uvesti CSV datoteku koja sadrži naše podatke o treningu; kako to radimo? Za ručno učitavanje datoteke kliknite na Radni prostor > Uvoz podataka > Iz tekstualne datoteke, a zatim odaberite datoteku koju želite učitati. Prilikom odabira datoteke dobit ćete neke opcije uvoza. Ako učitavate neki okvir podataka, provjerite je li zaglavlje postavljeno na Da i da nazivi stupaca postoje u vašoj datoteci. Nakon što učitate datoteku, možete početi raditi što god imate na umu sa svojom datotekom. Za uvoz drugih vrsta datoteka, slobodno pogledajte ovdje.

Zaključak

R je prevladavajući programski jezik u svijetu statističara i znanstvenika podataka. Danas u ovom članku naučili smo zašto može biti vrlo korisno poznavati R i kako može ubrzati vaše procese, na primjer svojom brzo prilagodljivom sintaksom, širokim rasponom dostupnih paketa i velikom podrškom zajednice. Sada također razumijemo neke bitne ključne značajke za početak s jezikom i preliminarnim koracima, kao što je učitavanje datoteke i instaliranje paketa. U sljedećim člancima iz ove serije radit ćemo naprednije zadatke kao što su izrada vizualizacija i obrada podataka.
Subscribe our Newsletter

Keep up to date on SAP Analytics Cloud, SAP Data Hub, and Big Data, and do not miss any news, downloads & events.

Author
Expert Team