18 hädavajalikku tarkvara, mida peaks teadma iga andmeteadlane

Andmeteadus on mõeldud kõigile, kes armastavad sassis asju lahti harutada ja varjatud imesid ilmses jamas avastada.


See on nagu nõelte otsimine heinakuhjadest; ainult et andmeteadlastel pole vaja käsi üldse määrduda. Kasutades väljamõeldud tööriistu koos värviliste diagrammidega ja vaadates numbrihunnikuid, sukelduvad nad lihtsalt andmete heinakatkudesse ja leiavad väärtuslikud nõelad, millel on suur äriväärtus..

Tüüpiline andmeteadlane tööriistakast peaks sisaldama vähemalt ühte üksust kõigist nendest kategooriatest: relatsioonandmebaasid, NoSQL andmebaasid, suured andmeraamistikud, visualiseerimisriistad, kraapimisriistad, programmeerimiskeeled, IDE-d ja süvaõppe tööriistad.

Suhteandmebaasid

Relatsioonandmebaas on atribuutidega tabelitesse struktureeritud andmete kogum. Tabelid saab omavahel siduda, määratledes seosed ja piirangud ning luues nn andmemudeli. Relatsioonandmebaasidega töötamiseks kasutate tavaliselt keelt nimega SQL (Structured Query Language).

Rakendusi, mis haldavad relatsiooniandmebaaside struktuuri ja andmeid, nimetatakse RDBMS-ks (relatsiooniandmebaasi haldussüsteemid). Selliseid rakendusi on palju ja kõige asjakohasemad on viimasel ajal hakanud keskenduma andmeteaduse valdkonnale, lisades funktsionaalsust tööle suurte andmehoidlatega ja rakendades selliseid tehnikaid nagu andmeanalüütika ja masinõpe.

SQL Server

See üks on Microsofti RDBMS, mis on arenenud enam kui 20 aastat, laiendades järjepidevalt oma ettevõtte funktsioone. Alates 2016. aasta versioonist pakub SQL Server teenuste portfelli, mis sisaldab varjatud R-koodi tuge. SQL Server 2017 suurendab panust, nimetades oma R teenused ümber masinkeele teenusteks ja lisades Pythoni keele toe (täpsemalt nende kahe keele kohta allpool).

Nende oluliste täienduste abil on SQL Server suunatud andmeteadlastele, kellel ei pruugi olla kogemusi Microsofti SQL Serveri emakeelena päringkeele Transact SQL kasutamisel.

SQL Server pole kaugeltki tasuta toode. Saate osta litsentse selle installimiseks Windows Serverisse (hind sõltub kasutatavate kasutajate arvust) või kasutada seda Microsofti Azure’i pilve kaudu tasupõhise teenusena. Microsoft SQL Serveri õppimine on lihtne.

MySQL

Avatud lähtekoodiga tarkvara poolel, MySQL on RDBMS-ide populaarsuse kroon. Ehkki Oracle omab seda praegu, on see GNU üldise avaliku litsentsi tingimustel endiselt tasuta ja avatud lähtekoodiga. Enamik veebipõhiseid rakendusi kasutab MySQL-i alusandmete hoidlana tänu sellele, et see vastab SQL-i standardile.

Samuti aitavad selle populaarsust hõlbustada lihtsad installiprotseduurid, suur arendajate kogukond, ulatuslik dokumentatsioon ja muude tootjate tööriistad, näiteks phpMyAdmin, mis lihtsustavad igapäevaseid haldustegevusi. Kuigi MySQL-il puuduvad andmeanalüüsi tegelikud funktsioonid, võimaldab selle avatus selle integreerimist peaaegu kõigi teie poolt valitud visualiseerimis-, aruandlus- ja äriteabe tööriistadega.

PostgreSQL

Teine avatud lähtekoodiga RDBMS-i variant on PostgreSQL. Ehkki PostgreSQL pole nii populaarne kui MySQL, paistab see silma oma paindlikkuse ja laiendatavuse ning keerukate päringute toe poolest, need, mis lähevad kaugemale põhilausetest nagu SELECT, WHERE ja GROUP BY.

Need omadused võimaldavad sellel andmeteadlaste seas populaarsust koguda. Veel üks huvitav funktsioon on multi-keskkondade tugi, mis võimaldab seda kasutada pilve- ja kohapealses keskkonnas või mõlemas koos, üldtuntud kui hübriidpilvekeskkonnad..

PostgreSQL on võimeline ühendama veebipõhist analüütilist töötlemist (OLAP) võrgutöötluste töötlemisega (OLTP), töötades režiimis, mida nimetatakse hübriidtehingute / analüütiliseks töötlemiseks (HTAP). Tänu geograafiliste andmete lisamisele PostGIS ja dokumentide jaoks JSON-B sobib see hästi ka suurandmetega töötamiseks. PostgreSQL toetab ka struktureerimata andmeid, mis võimaldab neil olla mõlemas kategoorias: SQL ja NoSQL andmebaasid.

NoSQL andmebaasid

Seda tüüpi andmehoidla, tuntud ka kui mitte-relatsioonilised andmebaasid, võimaldab kiiremat juurdepääsu mittetabelilistele andmestruktuuridele. Nende struktuuride näideteks on paljude hulgas graafikud, dokumendid, laiad veerud ja võtmeväärtused. NoSQL-i andmehoidlad võivad andmete järjepidevuse kõrvale jätta muude eeliste, näiteks kättesaadavuse, jaotamise ja juurdepääsu kiiruse kasuks.

Kuna NoSQLi andmepoodides pole SQL-i, on ainus viis sellist tüüpi andmebaasidest päringuid teha madala taseme keelte kasutamisel ja pole sellist keelt, mis oleks nii laialt aktsepteeritud kui SQL. Lisaks puuduvad NoSQL-i jaoks standardsed spetsifikatsioonid. Sellepärast on iroonilisel kombel hakanud mõned NoSQL andmebaasid lisama SQL-i skriptide tuge.

MongoDB

MongoDB on populaarne NoSQL andmebaasisüsteem, mis salvestab andmeid JSON-dokumentide kujul. Selle fookuses on mastaapsus ja paindlikkus andmete struktureerimata säilitamiseks. See tähendab, et puudub fikseeritud väljade loend, mida tuleb järgida kõigis salvestatud elementides. Lisaks saab andmestruktuuri aja jooksul muuta, mis tähendab, et relatsiooniandmebaasis on suur oht mõjutada töötavaid rakendusi.

MongoDB tehnoloogia võimaldab indekseerimist, ad-hoc päringuid ja liitmist, mis pakuvad tugeva aluse andmete analüüsiks. Andmebaasi hajutatud olemus tagab kõrge kättesaadavuse, mastabeerimise ja geograafilise jaotuse ilma keerukate tööriistade vajaduseta.

Redis

See üks on veel üks võimalus avatud lähtekoodiga NoSQL-i ees. Põhimõtteliselt on see mälus töötav andmestruktuuripood, mis lisaks andmebaasiteenuste pakkumisele töötab ka vahemälu ja sõnumite vahendajana.

See toetab hulgaliselt tavatuid andmestruktuure, sealhulgas räsi, georuumilisi indekseid, loendeid ja sorteeritud komplekte. See sobib hästi andmeteaduseks tänu suure jõudlusega andmemahukates ülesannetes, näiteks komplekti ristumiste arvutamine, pikkade loendite sortimine või keerukate paremusjärjestuste loomine. Redise silmapaistva jõudluse põhjuseks on mälusisene töö. Seda saab konfigureerida andmete valikuliseks püsimiseks.

Suurandmete raamistikud

Oletame, et peate analüüsima andmeid, mida Facebooki kasutajad kuu jooksul genereerivad. Me räägime fotodest, videotest, sõnumitest ja kõigest sellest. Võttes arvesse, et selle kasutajad lisavad sotsiaalvõrgustikule iga päev rohkem kui 500 terabaiti andmeid, on raske mõõta selle terve kuu andmete mahtu.

Selle tohutu hulga andmete tõhusaks manipuleerimiseks vajate sobivat raamistikku, mis suudab statistikat arvutada hajutatud arhitektuuri kaudu. Turgu juhivad kaks raamistikku: Hadoop ja Spark.

Hadoop

Suurandmete raamistikuna, Hadoop tegeleb tohutute andmehunnikute otsimise, töötlemise ja säilitamisega seotud keerukustega. Hadoop töötab hajutatud keskkonnas, mis koosneb arvutiklastritest, mis töötlevad lihtsaid algoritme. On olemas orkestreeriv algoritm nimega MapReduce, mis jagab suured ülesanded väikesteks osadeks ja jaotab seejärel need väikesed ülesanded saadaolevate klastrite vahel.

Hadoopi soovitatakse äriklassi andmehoidlatele, mis vajavad kiiret juurdepääsu ja kõrget saadavust, seda kõike odava skeemi korral. Kuid vajate sügava Linuxiga administraatorit Hadoopi teadmised säilitada raamistik ja käivitada.

Säde

Hadoop pole ainus suurandmetega manipuleerimise jaoks saadaolev raamistik. Teine suur nimi selles piirkonnas on Säde. Spark-mootor kavandati Hadoopi ületamiseks analüüsi kiiruse ja kasutusmugavuse osas. Ilmselt saavutas see eesmärgi: mõne võrdluse kohaselt töötab Spark kettal töötades kuni 10 korda kiiremini kui Hadoop ja töötab mälus 100 korda kiiremini. Sama mahu andmete töötlemiseks on vaja ka väiksemat arvu masinaid.

Lisaks kiirusele on Sparki plussiks ka voo töötlemise toetamine. Seda tüüpi andmetöötlus, mida nimetatakse ka reaalajas töötlemiseks, hõlmab pidevat andmete sisestamist ja väljastamist.

Visualiseerimisvahendid

Andmeteadlaste tavaline nali ütleb, et kui piinate andmeid piisavalt kaua, tunnistab see, mida peate teadma. Sel juhul tähendab „piinamine” andmetega manipuleerimist, muutes ja filtreerides, et neid paremini visualiseerida. Ja just siis tulevad sündmuskohale andmete visualiseerimise tööriistad. Need tööriistad võtavad eeltöödeldud andmeid mitmest allikast ja näitavad nende paljastatud tõdesid graafilisel ja arusaadaval kujul.

Sellesse kategooriasse kuulub sadu tööriistu. Meeldib see meile või mitte, on kõige laialdasemalt kasutatav Microsoft Excel ja selle diagrammitööriistad. Exceli diagrammid on juurdepääsetavad kõigile, kes kasutavad Exceli, kuid nende funktsioonid on piiratud. Sama kehtib ka muude arvutustabelirakenduste, näiteks Google’i arvutustabelid ja Libre Office. Kuid me räägime siin konkreetsematest tööriistadest, mis on spetsiaalselt ette nähtud äriteabe (BI) ja andmete analüüsi jaoks.

Power BI

Mitte kaua aega tagasi, Microsoft välja oma Power BI visualiseerimise rakendus. See võib võtta andmeid erinevatest allikatest, näiteks tekstifailidest, andmebaasidest, arvutustabelitest ja paljudest veebiandmeteenustest, sealhulgas Facebook ja Twitter, ning kasutada seda diagrammide, tabelite, kaartide ja paljude muude visualiseerimisobjektide pakitud armatuurlaudade genereerimiseks. Armatuurlaua objektid on interaktiivsed, mis tähendab, et võite klõpsata diagrammis oleval andmesarjal selle valimiseks ja kasutada seda muude paneeli objektide filtrina..

Power BI on Windowsi töölauarakenduse (Office 365 komplekti osa), veebirakenduse ja võrguteenuse kombinatsioon armatuurlaudade veebis avaldamiseks ja nende kasutajatega jagamiseks. Teenus võimaldab teil luua ja hallata õigusi, mis võimaldavad juurdepääsu tahvlitele ainult kindlatele inimestele.

Tableau

Tableau on veel üks võimalus interaktiivsete armatuurlaudade loomiseks mitme andmeallika kombinatsioonist. Samuti pakub see teie loodud armatuurlaudade jagamiseks töölauaversiooni, veebiversiooni ja võrguteenust. See töötab loomulikult “teie mõttega” (nagu ta väidab) ja seda on lihtne kasutada mittetehniliste inimeste jaoks, mida täiustavad paljud õpetused ja veebivideod.

Mõned Tableau silmapaistvamad funktsioonid on piiramatu andmesideühendused, reaalajas olevad ja mälus olevad andmed ning mobiilile optimeeritud kujundus.

QlikView

QlikView pakub puhast ja selget kasutajaliidest, mis aitab analüütikutel avastada olemasolevatest andmetest uusi arusaamu kõigile arusaadavate visuaalsete elementide kaudu.

See tööriist on teadaolevalt üks paindlikumaid äriteabe platvorme. See pakub funktsiooni nimega Assotsiatiivne otsing, mis aitab teil keskenduda kõige olulisematele andmetele, säästes aega, mis kulub andmete iseseisvaks leidmiseks.

QlikView abil saate teha partneritega reaalajas koostööd, tehes võrdlevat analüüsi. Kõiki vajalikke andmeid saab ühendada üheks rakenduseks koos turvafunktsioonidega, mis piiravad juurdepääsu andmetele.

Kraapimisriistad

Aegadel, kui Internet alles tekkis, hakkasid veebi indekseerijad reisima võrkude kaudu, kogudes teavet omal moel. Tehnoloogia arenedes muutus mõiste veebi indekseerimine veebi kraapimiseks, kuid tähendab ikkagi sama: veebisaitidelt teabe automaatseks kaevandamiseks. Veebi kraapimiseks kasutate automatiseeritud protsesse või robotid, mis liiguvad ühelt veebilehelt teisele, ekstraheerides neilt andmeid ja eksportides need eri vormingutesse või sisestades andmebaasidesse edasiseks analüüsiks.

Allpool võtame kokku kolme tänapäeval kõige populaarsema veebikraavi omadused.

Kaheksajalg

Kaheksajalg veebikaabits pakub huvitavaid omadusi, sealhulgas sisseehitatud tööriistu teabe hankimiseks veebisaitidelt, mis ei võimalda robotite kraapimisel oma tööd hõlpsalt teha. See on töölauarakendus, mis ei vaja kodeerimist, koos kasutajasõbraliku kasutajaliidesega, mis võimaldab kaevandamise protsessi graafilise töövoo kujundaja abil visualiseerida.

Koos eraldiseisva rakendusega pakub Octoparse pilvepõhist teenust, et kiirendada andmete eraldamise protsessi. Kasutades pilveteenust töölauarakenduse asemel saavad kasutajad kiiruse suurenemist 4–10-kordselt. Kui jääte töölauaversiooni juurde, saate Octoparse’i kasutada tasuta. Kuid kui eelistate kasutada pilveteenust, peate valima ühe selle tasulistest plaanidest.

Sisu haaraja

Kui otsite funktsioonirikka kraapimisriista, peaksite sellel silma peal hoidma Sisu haaraja. Erinevalt Octoparse’ist peab Content Grabberi kasutamiseks olema edasijõudnud programmeerimisoskus. Vastutasuks saate skriptide redigeerimist, liideste silumist ja muid täiustatud funktsioone. Rakendusega Content Grabber saate tavaliste avaldiste kirjutamiseks kasutada .Net-keeli. Nii ei pea te avaldisi genereerima sisseehitatud tööriista abil.

Tööriist pakub API (rakenduste programmeerimise liidest), mida saate kasutada töölaua- ja veebirakenduste kraapimisvõimaluste lisamiseks. Selle API kasutamiseks peavad arendajad saama juurdepääsu sisuteenuse pakkuja Windowsi teenusele.

ParseHub

See kaabits saab hakkama laia tüüpi eri tüüpi sisuga, sealhulgas foorumid, pesastatud kommentaarid, kalendrid ja kaardid. Samuti saab see tegeleda lehtedega, mis sisaldavad autentimist, Javascripti, Ajaxi ja palju muud. ParseHubi saab kasutada veebirakenduse või töölauarakendusena, mis on võimeline töötama Windowsis, macOS X-is ja Linuxis.

Nagu sisuhaardejalgi, on ka ParseHubist maksimaalse kasu saamiseks soovitatav omada teatavaid programmeerimisteadmisi. Sellel on tasuta versioon, piiratud 5 projektiga ja 200 lehekülge ühe käigu kohta.

Programmeerimiskeeled

Nii nagu eelpool mainitud SQL-keel on loodud spetsiaalselt relatsiooniandmebaasidega töötamiseks, on ka teisi keeli, mis on loodud selgelt andmeteadusele keskendudes. Need keeled võimaldavad arendajatel kirjutada programme, mis tegelevad massilise andmeanalüüsiga, näiteks statistika ja masinõppega.

SQL-i peetakse samuti oluliseks oskuseks, mida arendajad peaksid andmetöötluse alal tegema, kuid selle põhjuseks on asjaolu, et enamikul organisatsioonidest on relatsiooniliste andmebaaside kohta endiselt palju andmeid. “Tõelised” andmeteaduse keeled on R ja Python.

Python

Python on kõrgetasemeline tõlgendatud üldotstarbeline programmeerimiskeel, mis sobib hästi rakenduste kiireks arendamiseks. Sellel on lihtne ja hõlpsasti õpitav süntaks, mis võimaldab järsku õppimiskõverat ja programmi hoolduskulude vähendamist. On palju põhjuseid, miks see on andmeteaduse eelistatav keel. Mõned neist: skriptimispotentsiaal, paljusus, teisaldatavus ja jõudlus.

See keel on hea lähtepunkt andmeteadlastele, kes plaanivad enne tõelise ja raske andmete krigistamise töö juurde asumist palju katsetada ja kes soovivad välja töötada terviklikke rakendusi.

R

R keel kasutatakse peamiselt statistiliseks andmetöötluseks ja graafikute koostamiseks. Ehkki see pole mõeldud täieõiguslike rakenduste arendamiseks, nagu seda teeks Python, on R viimastel aastatel muutunud väga populaarseks tänu oma võimalusele andmete kaevandamisel ja andmete analüüsimisel.

Tänu üha laienevale vabalt saadaolevate pakettide kogule, mis laiendab selle funktsionaalsust, on R võimeline tegema igasuguseid andmete krigistamistöid, sealhulgas lineaarset / mittelineaarset modelleerimist, klassifitseerimist, statistilisi teste jne..

Keelt ei ole lihtne õppida, kuid kui olete selle filosoofiaga tutvunud, teete seda statistilist arvutamist nagu prof.

IDE-d

Kui kaalute tõsiselt andmetöötlusele pühendumist, peate valima hoolikalt teie vajadustele vastava integreeritud arenduskeskkonna (IDE), sest teie ja teie IDE veedavad palju aega koos töötades.

Ideaalne IDE peaks kokku panema kõik igapäevases kooderitöös vajalikud tööriistad: tekstiredaktor koos süntaksi esiletõstmise ja automaatse lõpetamisega, võimas silur, objekti brauser ja hõlpsasti ligipääs välistele tööriistadele. Lisaks peab see ühilduma teie eelistatud keelega, seega on hea mõte valida IDE pärast seda, kui olete teadnud, millist keelt kasutate.

Spyder

See geneeriline IDE on enamasti mõeldud teadlastele ja analüütikutele, kes vajavad ka kodeerimist. Nende mugavuse huvides ei piirdu see ainult IDE funktsionaalsusega – see pakub ka vahendeid andmete uurimiseks / visualiseerimiseks ja interaktiivseks täitmiseks, nagu võib leida teaduspaketilt. Spyderi redaktor toetab mitut keelt ja lisab klassi brauseri, akende jagamise, määratluse juurde hüppamise, automaatse koodi täitmise ja isegi koodianalüüsi tööriista.

Silur aitab teil interaktiivselt jälgida iga koodirida ja profiiliprofiil aitab teil ebatõhususi leida ja kõrvaldada.

PyCharm

Kui programmeerite Pythonis, on tõenäoline, et teie valitud IDE on PyCharm. Sellel on nutikas koodiredaktor nutika otsingu, koodi lõpetamise ning vigade tuvastamise ja parandamisega. Vaid ühe klõpsuga saate hüpata koodiredaktorist suvalisse kontekstiga seotud aknasse, sealhulgas testi, supermeetodi, juurutamise, deklareerimise ja muu. PyCharm toetab Anacondat ja paljusid teaduspakette, näiteks NumPy ja Matplotlib, et neist nimetada vaid kaks.

See pakub integratsiooni kõige olulisemate versioonikontrollisüsteemidega ning ka testjooksja, profiiliprofiili ja siluriga. Tehingu lõpetamiseks integreeritakse see ka Dockeri ja Vagrantiga, pakkudes platvormidevahelist arendamist ja konteinerite koondamist.

RStuudio

Nende andmeteadlaste jaoks, kes eelistavad R-meeskonda, peaks olema valitud IDE RStuudio, paljude funktsioonide tõttu. Saate selle installida Windowsi, macOS või Linuxiga töölauale või võite seda veebibrauserist käivitada, kui te ei soovi seda kohapeal installida. Mõlemad versioonid pakuvad selliseid hüvesid nagu süntaksi esiletõstmine, nutikad taanded ja koodi valmimine. Seal on integreeritud andmevaatur, mis on abiks siis, kui peate sirvima tabeli andmeid.

Silumisrežiim võimaldab vaadata, kuidas andmeid dünaamiliselt värskendatakse programmi või skripti täites samm-sammult. Versiooni juhtimiseks integreerib RStudio SVN-i ja Giti toe. Tore pluss on võimalus interaktiivse graafika autoriks koos Shiny’iga ja raamatukogudele.

Teie isiklik tööriistakast

Sel hetkel peaks teil olema täielik ülevaade tööriistadest, mida peaksite teadma, et silma paista andmetenduses. Samuti loodame, et andsime teile piisavalt teavet, et otsustada, mis on igas tööriistakategoorias kõige mugavam. Nüüd on teie otsustada. Andmeteadus on õitsev väli karjääri kujundada. Kuid kui soovite seda teha, peate olema kursis suundumuste ja tehnoloogiate muutustega, kuna need toimuvad peaaegu iga päev.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map