18 Grundlegende Software, über die jeder Datenwissenschaftler Bescheid wissen sollte

Data Science ist für alle gedacht, die es lieben, verworrene Dinge zu entwirren und verborgene Wunder in einem scheinbaren Durcheinander zu entdecken.


Es ist, als würde man im Heuhaufen nach Nadeln suchen. nur, dass Datenwissenschaftler sich überhaupt nicht die Hände schmutzig machen müssen. Mit ausgefallenen Werkzeugen mit farbenfrohen Diagrammen und dem Betrachten von Zahlenstapeln tauchen sie einfach in Datenheuhaufen ein und finden wertvolle Nadeln in Form von Erkenntnissen von hohem Geschäftswert.

Ein typischer Datenwissenschaftler Die Toolbox sollte mindestens ein Element jeder dieser Kategorien enthalten: relationale Datenbanken, NoSQL-Datenbanken, Big-Data-Frameworks, Visualisierungstools, Scraping-Tools, Programmiersprachen, IDEs und Deep-Learning-Tools.

Relationale Datenbanken

Eine relationale Datenbank ist eine Sammlung von Daten, die in Tabellen mit Attributen strukturiert sind. Die Tabellen können miteinander verknüpft werden, um Beziehungen und Einschränkungen zu definieren und ein sogenanntes Datenmodell zu erstellen. Um mit relationalen Datenbanken zu arbeiten, verwenden Sie normalerweise eine Sprache namens SQL (Structured Query Language)..

Die Anwendungen, die die Struktur und Daten in relationalen Datenbanken verwalten, werden als RDBMS (Relational DataBase Management Systems) bezeichnet. Es gibt viele solcher Anwendungen, und die relevantesten haben vor kurzem begonnen, sich auf das Gebiet der Datenwissenschaft zu konzentrieren und Funktionen für die Arbeit mit Big-Data-Repositorys hinzuzufügen und Techniken wie Datenanalyse und maschinelles Lernen anzuwenden.

SQL Server

Diese Eines davon ist das RDBMS von Microsoft, das sich seit mehr als 20 Jahren durch konsequente Erweiterung seiner Unternehmensfunktionalität weiterentwickelt. Seit seiner Version 2016 bietet SQL Server ein Portfolio von Diensten, die Unterstützung für eingebetteten R-Code enthalten. SQL Server 2017 erhöht die Wette, indem es seine R-Dienste in Maschinensprachendienste umbenennt und Unterstützung für die Python-Sprache hinzufügt (mehr zu diesen beiden Sprachen weiter unten)..

Mit diesen wichtigen Ergänzungen richtet sich SQL Server an Datenwissenschaftler, die möglicherweise keine Erfahrung mit Transact SQL, der nativen Abfragesprache von Microsoft SQL Server, haben.

SQL Server ist weit davon entfernt, ein kostenloses Produkt zu sein. Sie können Lizenzen kaufen, um es auf einem Windows Server zu installieren (der Preis hängt von der Anzahl der gleichzeitigen Benutzer ab) oder es über die Microsoft Azure-Cloud als kostenpflichtigen Dienst verwenden. Das Erlernen von Microsoft SQL Server ist einfach.

MySQL

Auf der Open-Source-Softwareseite, MySQL hat die Popularität Krone von RDBMSs. Obwohl Oracle es derzeit besitzt, ist es unter den Bedingungen einer GNU General Public License immer noch kostenlos und Open-Source. Die meisten webbasierten Anwendungen verwenden MySQL als zugrunde liegendes Datenrepository, da es dem SQL-Standard entspricht.

Zu seiner Popularität tragen auch die einfachen Installationsverfahren, die große Entwicklergemeinschaft, die Vielzahl umfassender Dokumentationen und Tools von Drittanbietern wie phpMyAdmin bei, die die täglichen Verwaltungsaktivitäten vereinfachen. Obwohl MySQL keine nativen Funktionen für die Datenanalyse hat, ermöglicht seine Offenheit die Integration in nahezu jedes Visualisierungs-, Berichts- und Business Intelligence-Tool, das Sie auswählen können.

PostgreSQL

Eine weitere Open-Source-RDBMS-Option ist PostgreSQL. PostgreSQL ist zwar nicht so beliebt wie MySQL, zeichnet sich jedoch durch Flexibilität und Erweiterbarkeit sowie durch die Unterstützung komplexer Abfragen aus, die über die grundlegenden Anweisungen wie SELECT, WHERE und GROUP BY hinausgehen.

Diese Funktionen lassen es bei Datenwissenschaftlern immer beliebter werden. Ein weiteres interessantes Feature ist die Unterstützung für Multi-Umgebungen, die die Verwendung in Cloud- und On-Premise-Umgebungen oder in einer Mischung aus beiden, allgemein als Hybrid-Cloud-Umgebungen bezeichneten Umgebungen, ermöglicht.

PostgreSQL ist in der Lage, Online-Analyseverarbeitung (OLAP) mit Online-Transaktionsverarbeitung (OLTP) zu kombinieren und arbeitet in einem Modus, der als hybride Transaktions- / Analyseverarbeitung (HTAP) bezeichnet wird. Dank PostGIS für geografische Daten und JSON-B für Dokumente eignet es sich auch gut für die Arbeit mit Big Data. PostgreSQL unterstützt auch unstrukturierte Daten, sodass sie in beide Kategorien unterteilt werden können: SQL- und NoSQL-Datenbanken.

NoSQL-Datenbanken

Diese Art von Datenrepository wird auch als nicht relationale Datenbanken bezeichnet und bietet einen schnelleren Zugriff auf nicht tabellarische Datenstrukturen. Einige Beispiele für diese Strukturen sind unter anderem Diagramme, Dokumente, breite Spalten und Schlüsselwerte. NoSQL-Datenspeicher können die Datenkonsistenz zugunsten anderer Vorteile wie Verfügbarkeit, Partitionierung und Zugriffsgeschwindigkeit außer Kraft setzen.

Da es in NoSQL-Datenspeichern kein SQL gibt, besteht die einzige Möglichkeit, diese Art von Datenbank abzufragen, in der Verwendung von Low-Level-Sprachen, und es gibt keine solche Sprache, die so weit verbreitet ist wie SQL. Außerdem gibt es keine Standardspezifikationen für NoSQL. Aus diesem Grund beginnen einige NoSQL-Datenbanken ironischerweise, Unterstützung für SQL-Skripte hinzuzufügen.

MongoDB

MongoDB ist ein beliebtes NoSQL-Datenbanksystem, das Daten in Form von JSON-Dokumenten speichert. Der Fokus liegt auf der Skalierbarkeit und der Flexibilität, Daten nicht strukturiert zu speichern. Dies bedeutet, dass es keine feste Feldliste gibt, die in allen gespeicherten Elementen beachtet werden muss. Darüber hinaus kann die Datenstruktur im Laufe der Zeit geändert werden, was in einer relationalen Datenbank ein hohes Risiko für laufende Anwendungen mit sich bringt.

Die Technologie in MongoDB ermöglicht Indizierung, Ad-hoc-Abfragen und Aggregation, die eine solide Grundlage für die Datenanalyse bilden. Die verteilte Natur der Datenbank bietet hohe Verfügbarkeit, Skalierung und geografische Verteilung, ohne dass hochentwickelte Tools erforderlich sind.

Redis

Diese Eine davon ist eine weitere Option im Open-Source-Bereich NoSQL. Es handelt sich im Grunde genommen um einen Datenstrukturspeicher, der im Speicher arbeitet und neben der Bereitstellung von Datenbankdiensten auch als Cache-Speicher und Nachrichtenbroker fungiert.

Es unterstützt eine Vielzahl unkonventioneller Datenstrukturen, einschließlich Hashes, Geodatenindizes, Listen und sortierten Mengen. Es eignet sich aufgrund seiner hohen Leistung bei datenintensiven Aufgaben wie dem Berechnen von Schnittpunkten, dem Sortieren langer Listen oder dem Generieren komplexer Rankings gut für die Datenwissenschaft. Der Grund für die herausragende Leistung von Redis ist der In-Memory-Betrieb. Es kann so konfiguriert werden, dass die Daten selektiv beibehalten werden.

Big Data Frameworks

Angenommen, Sie müssen die Daten analysieren, die Facebook-Benutzer während eines Monats generieren. Wir sprechen über Fotos, Videos, Nachrichten und alles. Angesichts der Tatsache, dass die Benutzer täglich mehr als 500 Terabyte Daten zum sozialen Netzwerk hinzufügen, ist es schwierig, das Volumen zu messen, das ein ganzer Monat seiner Daten darstellt.

Um diese große Datenmenge effektiv zu bearbeiten, benötigen Sie ein geeignetes Framework, mit dem Statistiken über eine verteilte Architektur berechnet werden können. Es gibt zwei der marktführenden Frameworks: Hadoop und Spark.

Hadoop

Als Big-Data-Framework, Hadoop befasst sich mit der Komplexität, die mit dem Abrufen, Verarbeiten und Speichern großer Datenmengen verbunden ist. Hadoop arbeitet in einer verteilten Umgebung, die aus Computerclustern besteht, die einfache Algorithmen verarbeiten. Es gibt einen Orchestrierungsalgorithmus namens MapReduce, der große Aufgaben in kleine Teile aufteilt und diese kleinen Aufgaben dann auf verfügbare Cluster verteilt.

Hadoop wird für Datenrepositorys der Enterprise-Klasse empfohlen, die einen schnellen Zugriff und eine hohe Verfügbarkeit erfordern – alles in einem kostengünstigen Schema. Sie benötigen jedoch einen Linux-Administrator mit deep Hadoop-Wissen um das Framework aufrechtzuerhalten und auszuführen.

Funke

Hadoop ist nicht das einzige verfügbare Framework für die Manipulation von Big Data. Ein weiterer großer Name in diesem Bereich ist Funke. Die Spark-Engine wurde entwickelt, um Hadoop in Bezug auf Analysegeschwindigkeit und Benutzerfreundlichkeit zu übertreffen. Anscheinend hat es dieses Ziel erreicht: Einige Vergleiche besagen, dass Spark bei der Arbeit an einer Festplatte bis zu zehnmal schneller als Hadoop und im Speicher 100-mal schneller arbeitet. Es erfordert auch eine geringere Anzahl von Maschinen, um die gleiche Datenmenge zu verarbeiten.

Ein weiterer Vorteil von Spark ist neben der Geschwindigkeit die Unterstützung der Stream-Verarbeitung. Diese Art der Datenverarbeitung, auch Echtzeitverarbeitung genannt, umfasst die kontinuierliche Eingabe und Ausgabe von Daten.

Visualisierungstools

Ein häufiger Witz zwischen Datenwissenschaftlern besagt, dass wenn Sie die Daten lange genug quälen, sie gestehen, was Sie wissen müssen. In diesem Fall bedeutet „Folter“, die Daten durch Transformieren und Filtern zu manipulieren, um sie besser zu visualisieren. Und hier kommen Datenvisualisierungstools ins Spiel. Diese Tools verwenden vorverarbeitete Daten aus mehreren Quellen und zeigen die offenbarten Wahrheiten in grafischer, verständlicher Form.

Es gibt Hunderte von Werkzeugen, die in diese Kategorie fallen. Ob es Ihnen gefällt oder nicht, Microsoft Excel und seine Diagrammtools werden am häufigsten verwendet. Excel-Diagramme sind für jeden zugänglich, der Excel verwendet, sie verfügen jedoch nur über eingeschränkte Funktionen. Gleiches gilt für andere Tabellenkalkulationsanwendungen wie Google Sheets und Libre Office. Wir sprechen hier jedoch von spezifischeren Tools, die speziell auf Business Intelligence (BI) und Datenanalyse zugeschnitten sind.

Power BI

Vor nicht allzu langer Zeit hat Microsoft seine veröffentlicht Power BI Visualisierungsanwendung. Es kann Daten aus verschiedenen Quellen wie Textdateien, Datenbanken, Tabellenkalkulationen und vielen Online-Datendiensten, einschließlich Facebook und Twitter, verwenden und Dashboards mit Diagrammen, Tabellen, Karten und vielen anderen Visualisierungsobjekten generieren. Die Dashboard-Objekte sind interaktiv. Sie können also auf eine Datenreihe in einem Diagramm klicken, um sie auszuwählen und als Filter für die anderen Objekte auf der Tafel zu verwenden.

Power BI ist eine Kombination aus einer Windows-Desktopanwendung (Teil der Office 365-Suite), einer Webanwendung und einem Onlinedienst, um die Dashboards im Web zu veröffentlichen und für Ihre Benutzer freizugeben. Mit diesem Dienst können Sie Berechtigungen erstellen und verwalten, um nur bestimmten Personen Zugriff auf die Boards zu gewähren.

Tableau

Tableau ist eine weitere Option zum Erstellen interaktiver Dashboards aus einer Kombination mehrerer Datenquellen. Es bietet auch eine Desktop-Version, eine Webversion und einen Onlinedienst, um die von Ihnen erstellten Dashboards freizugeben. Es funktioniert auf natürliche Weise „so, wie Sie denken“ (wie es behauptet), und es ist einfach für nicht-technische Personen zu verwenden, was durch viele Tutorials und Online-Videos verbessert wird.

Einige der herausragendsten Funktionen von Tableau sind die unbegrenzten Datenanschlüsse, die Live- und In-Memory-Daten sowie die für Mobilgeräte optimierten Designs.

QlikView

QlikView bietet eine übersichtliche und unkomplizierte Benutzeroberfläche, mit der Analysten anhand visueller Elemente, die für alle leicht verständlich sind, neue Erkenntnisse aus vorhandenen Daten gewinnen können.

Dieses Tool ist als eine der flexibelsten Business Intelligence-Plattformen bekannt. Es bietet eine Funktion namens Assoziative Suche, mit der Sie sich auf die wichtigsten Daten konzentrieren können. So sparen Sie Zeit, die Sie benötigen, um sie selbst zu finden.

Mit QlikView können Sie in Echtzeit mit Partnern zusammenarbeiten und vergleichende Analysen durchführen. Alle relevanten Daten können in einer App mit Sicherheitsfunktionen kombiniert werden, die den Zugriff auf die Daten einschränken.

Schabewerkzeuge

In den Zeiten, als das Internet gerade erst auftauchte, begannen die Webcrawler, zusammen mit den Netzwerken zu reisen und Informationen auf ihre Weise zu sammeln. Mit der Weiterentwicklung der Technologie änderte sich der Begriff Web-Crawlen für Web-Scraping, bedeutete aber immer noch dasselbe: Informationen automatisch von Websites extrahieren. Für das Web-Scraping verwenden Sie automatisierte Prozesse oder Bots, die von einer Webseite zur nächsten springen, Daten daraus extrahieren und in verschiedene Formate exportieren oder zur weiteren Analyse in Datenbanken einfügen.

Im Folgenden fassen wir die Eigenschaften von drei der beliebtesten heute verfügbaren Web-Scraper zusammen.

Octoparse

Octoparse Web Scraper bietet einige interessante Eigenschaften, einschließlich integrierter Tools zum Abrufen von Informationen von Websites, die es Scraping Bots nicht leicht machen, ihre Arbeit zu erledigen. Es handelt sich um eine Desktop-Anwendung, für die keine Codierung erforderlich ist. Die benutzerfreundliche Benutzeroberfläche ermöglicht die Visualisierung des Extraktionsprozesses über einen grafischen Workflow-Designer.

Zusammen mit der eigenständigen Anwendung bietet Octoparse einen Cloud-basierten Service, um den Datenextraktionsprozess zu beschleunigen. Benutzer können einen 4- bis 10-fachen Geschwindigkeitsgewinn erzielen, wenn sie den Cloud-Dienst anstelle der Desktop-Anwendung verwenden. Wenn Sie sich an die Desktop-Version halten, können Sie Octoparse kostenlos verwenden. Wenn Sie den Cloud-Service jedoch lieber nutzen möchten, müssen Sie einen der kostenpflichtigen Pläne auswählen.

Content Grabber

Wenn Sie nach einem funktionsreichen Scraping-Tool suchen, sollten Sie ein Auge darauf werfen Content Grabber. Im Gegensatz zu Octoparse sind für die Verwendung von Content Grabber fortgeschrittene Programmierkenntnisse erforderlich. Im Gegenzug erhalten Sie Skriptbearbeitung, Debugging-Schnittstellen und andere erweiterte Funktionen. Mit Content Grabber können Sie .NET-Sprachen verwenden, um reguläre Ausdrücke zu schreiben. Auf diese Weise müssen Sie die Ausdrücke nicht mit einem integrierten Tool generieren.

Das Tool bietet eine API (Application Programming Interface), mit der Sie Ihren Desktop- und Webanwendungen Scraping-Funktionen hinzufügen können. Um diese API verwenden zu können, müssen Entwickler Zugriff auf den Content Grabber Windows-Dienst erhalten.

ParseHub

Dieser Schaber kann eine umfangreiche Liste verschiedener Arten von Inhalten verarbeiten, einschließlich Foren, verschachtelten Kommentaren, Kalendern und Karten. Es kann auch Seiten behandeln, die Authentifizierung, Javascript, Ajax und mehr enthalten. ParseHub kann als Web-App oder Desktop-Anwendung verwendet werden, die unter Windows, MacOS X und Linux ausgeführt werden kann.

Wie bei Content Grabber wird empfohlen, Programmierkenntnisse zu haben, um ParseHub optimal nutzen zu können. Es hat eine kostenlose Version, die auf 5 Projekte begrenzt ist, und 200 Seiten pro Lauf.

Programmiersprachen

Genau wie die zuvor erwähnte SQL-Sprache speziell für die Arbeit mit relationalen Datenbanken entwickelt wurde, gibt es andere Sprachen, die mit einem klaren Fokus auf Data Science erstellt wurden. Mit diesen Sprachen können die Entwickler Programme schreiben, die sich mit massiven Datenanalysen wie Statistik und maschinellem Lernen befassen.

SQL wird auch als eine wichtige Fähigkeit angesehen, die Entwickler für Data Science benötigen sollten. Dies liegt jedoch daran, dass die meisten Unternehmen immer noch viele Daten in relationalen Datenbanken haben. “Wahre” datenwissenschaftliche Sprachen sind R und Python.

Python

Python ist eine interpretierte Allzweck-Programmiersprache auf hohem Niveau, die sich gut für die schnelle Anwendungsentwicklung eignet. Es verfügt über eine einfache und leicht zu erlernende Syntax, die eine steile Lernkurve und eine Reduzierung der Kosten für die Programmwartung ermöglicht. Es gibt viele Gründe, warum es die bevorzugte Sprache für die Datenwissenschaft ist. Um nur einige zu nennen: Skriptpotential, Ausführlichkeit, Portabilität und Leistung.

Diese Sprache ist ein guter Ausgangspunkt für Datenwissenschaftler, die vor dem Einstieg in die reale und harte Datenverarbeitung viel experimentieren möchten und vollständige Anwendungen entwickeln möchten.

R.

Das R Sprache wird hauptsächlich zur statistischen Datenverarbeitung und grafischen Darstellung verwendet. Obwohl es nicht dazu gedacht ist, vollwertige Anwendungen zu entwickeln, wie dies bei Python der Fall wäre, ist R in den letzten Jahren aufgrund seines Potenzials für Data Mining und Datenanalyse sehr beliebt geworden.

Dank einer ständig wachsenden Bibliothek frei verfügbarer Pakete, die ihre Funktionalität erweitern, ist R in der Lage, alle Arten von Datenverarbeitungsarbeiten durchzuführen, einschließlich linearer / nichtlinearer Modellierung, Klassifizierung, statistischer Tests usw..

Es ist keine leicht zu erlernende Sprache, aber sobald Sie sich mit ihrer Philosophie vertraut gemacht haben, werden Sie statistische Berechnungen wie ein Profi durchführen.

IDEs

Wenn Sie ernsthaft darüber nachdenken, sich der Datenwissenschaft zu widmen, müssen Sie sorgfältig eine integrierte Entwicklungsumgebung (IDE) auswählen, die Ihren Anforderungen entspricht, da Sie und Ihre IDE viel Zeit miteinander verbringen.

Eine ideale IDE sollte alle Tools zusammenstellen, die Sie für Ihre tägliche Arbeit als Codierer benötigen: einen Texteditor mit Syntaxhervorhebung und automatischer Vervollständigung, einen leistungsstarken Debugger, einen Objektbrowser und einfachen Zugriff auf externe Tools. Außerdem muss es mit der Sprache Ihrer Wahl kompatibel sein. Daher ist es eine gute Idee, Ihre IDE auszuwählen, nachdem Sie wissen, welche Sprache Sie verwenden werden.

Spyder

Diese Generische IDE ist hauptsächlich für Wissenschaftler und Analysten gedacht, die ebenfalls codieren müssen. Um sie komfortabel zu gestalten, beschränkt es sich nicht auf die IDE-Funktionalität – es bietet auch Tools für die Datenexploration / -visualisierung und die interaktive Ausführung, wie sie in einem wissenschaftlichen Paket enthalten sind. Der Editor in Spyder unterstützt mehrere Sprachen und fügt einen Klassenbrowser, Fensteraufteilung, Sprung zur Definition, automatische Code-Vervollständigung und sogar ein Code-Analyse-Tool hinzu.

Mit dem Debugger können Sie jede Codezeile interaktiv verfolgen, und mit einem Profiler können Sie Ineffizienzen finden und beseitigen.

PyCharm

Wenn Sie in Python programmieren, ist die IDE Ihrer Wahl wahrscheinlich PyCharm. Es verfügt über einen intelligenten Code-Editor mit intelligenter Suche, Code-Vervollständigung sowie Fehlererkennung und -behebung. Mit nur einem Klick können Sie vom Code-Editor zu einem beliebigen kontextbezogenen Fenster springen, einschließlich Test, Supermethode, Implementierung, Deklaration und mehr. PyCharm unterstützt Anaconda und viele wissenschaftliche Pakete wie NumPy und Matplotlib, um nur zwei zu nennen.

Es bietet die Integration mit den wichtigsten Versionskontrollsystemen sowie mit einem Testläufer, einem Profiler und einem Debugger. Um den Deal abzuschließen, wird es auch in Docker und Vagrant integriert, um eine plattformübergreifende Entwicklung und Containerisierung zu ermöglichen.

RStudio

Für diejenigen Datenwissenschaftler, die das R-Team bevorzugen, sollte die IDE der Wahl sein RStudio, wegen seiner vielen Funktionen. Sie können es auf einem Desktop unter Windows, MacOS oder Linux installieren oder über einen Webbrowser ausführen, wenn Sie es nicht lokal installieren möchten. Beide Versionen bieten Extras wie Syntaxhervorhebung, intelligentes Einrücken und Code-Vervollständigung. Es gibt einen integrierten Daten-Viewer, der nützlich ist, wenn Sie tabellarische Daten durchsuchen müssen.

Im Debugging-Modus können Sie sehen, wie die Daten dynamisch aktualisiert werden, wenn Sie ein Programm oder ein Skript Schritt für Schritt ausführen. Zur Versionskontrolle integriert RStudio die Unterstützung für SVN und Git. Ein schönes Plus ist die Möglichkeit, mit Shiny interaktive Grafiken zu erstellen und Bibliotheken bereitzustellen.

Ihre persönliche Toolbox

An diesem Punkt sollten Sie einen vollständigen Überblick über die Tools haben, die Sie kennen sollten, um in der Datenwissenschaft herausragende Leistungen zu erbringen. Wir hoffen, dass wir Ihnen genügend Informationen gegeben haben, um zu entscheiden, welche Option in jeder Werkzeugkategorie am bequemsten ist. Jetzt liegt es an Ihnen. Data Science ist ein florierendes Feld eine Karriere entwickeln. Wenn Sie dies jedoch möchten, müssen Sie mit den Änderungen der Trends und Technologien Schritt halten, da diese fast täglich auftreten.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map