18 logiciels essentiels que tout scientifique des données devrait connaître

La science des données s’adresse à tous ceux qui aiment démêler des choses enchevêtrées et découvrir des merveilles cachées dans un désordre apparent.


C’est comme chercher des aiguilles dans des meules de foin; seulement que les scientifiques des données n’ont pas du tout besoin de se salir les mains. En utilisant des outils sophistiqués avec des graphiques colorés et en regardant des tas de chiffres, ils plongent simplement dans des meules de foin de données et trouvent des aiguilles précieuses sous la forme d’informations de grande valeur commerciale.

Un typique scientifique des données la boîte à outils doit inclure au moins un élément de chacune de ces catégories: bases de données relationnelles, bases de données NoSQL, cadres de Big Data, outils de visualisation, outils de scraping, langages de programmation, IDE et outils d’apprentissage en profondeur.

Bases de données relationnelles

Une base de données relationnelle est une collection de données structurées en tables avec des attributs. Les tableaux peuvent être liés les uns aux autres, définissant des relations et des restrictions, et créant ce qu’on appelle un modèle de données. Pour travailler avec des bases de données relationnelles, vous utilisez généralement un langage appelé SQL (Structured Query Language).

Les applications qui gèrent la structure et les données des bases de données relationnelles sont appelées RDBMS (Relational DataBase Management Systems). Il existe de nombreuses applications de ce type, et les plus pertinentes ont récemment commencé à se concentrer sur le domaine de la science des données, en ajoutant des fonctionnalités pour travailler avec des référentiels de Big Data et pour appliquer des techniques telles que l’analyse de données et l’apprentissage automatique..

serveur SQL

Cette le premier est le SGBDR de Microsoft, qui évolue depuis plus de 20 ans en étendant constamment ses fonctionnalités d’entreprise. Depuis sa version 2016, SQL Server propose une gamme de services qui incluent la prise en charge du code R intégré. SQL Server 2017 lève le pari en renommant ses services R en services de langage machine et en ajoutant la prise en charge du langage Python (plus sur ces deux langues ci-dessous).

Avec ces ajouts importants, SQL Server s’adresse aux scientifiques des données qui peuvent ne pas avoir d’expérience avec Transact SQL, le langage de requête natif de Microsoft SQL Server.

SQL Server est loin d’être un produit gratuit. Vous pouvez acheter des licences pour l’installer sur un serveur Windows (le prix variera en fonction du nombre d’utilisateurs simultanés) ou l’utiliser comme un service payant, via le cloud Microsoft Azure. Apprendre Microsoft SQL Server est facile.

MySQL

Du côté des logiciels open source, MySQL a la couronne de popularité des SGBDR. Bien qu’Oracle le possède actuellement, il est toujours gratuit et open source sous les termes d’une licence publique générale GNU. La plupart des applications Web utilisent MySQL comme référentiel de données sous-jacent, grâce à sa conformité avec la norme SQL.

Ses procédures d’installation faciles, sa grande communauté de développeurs, des tonnes de documentation complète et des outils tiers, tels que phpMyAdmin, qui simplifient les activités de gestion quotidiennes, contribuent également à sa popularité. Bien que MySQL n’ait pas de fonctions natives pour effectuer l’analyse des données, son ouverture permet son intégration avec presque tous les outils de visualisation, de création de rapports et de veille stratégique que vous pouvez choisir.

PostgreSQL

Une autre option de SGBDR open source est PostgreSQL. Bien qu’il ne soit pas aussi populaire que MySQL, PostgreSQL se distingue par sa flexibilité et son extensibilité, ainsi que par sa prise en charge des requêtes complexes, celles qui vont au-delà des instructions de base telles que SELECT, WHERE et GROUP BY.

Ces fonctionnalités lui permettent de gagner en popularité auprès des scientifiques des données. Une autre caractéristique intéressante est la prise en charge de multi-environnements, qui lui permet d’être utilisé dans des environnements cloud et sur site, ou dans un mélange des deux, communément appelés environnements cloud hybrides.

PostgreSQL est capable de combiner le traitement analytique en ligne (OLAP) avec le traitement des transactions en ligne (OLTP), fonctionnant dans un mode appelé traitement transactionnel / analytique hybride (HTAP). Il est également bien adapté pour travailler avec des mégadonnées, grâce à l’ajout de PostGIS pour les données géographiques et JSON-B pour les documents. PostgreSQL prend également en charge les données non structurées, ce qui lui permet d’être dans les deux catégories: bases de données SQL et NoSQL.

Bases de données NoSQL

Également connu sous le nom de bases de données non relationnelles, ce type de référentiel de données offre un accès plus rapide aux structures de données non tabulaires. Quelques exemples de ces structures sont des graphiques, des documents, des colonnes larges, des valeurs clés, entre autres. Les magasins de données NoSQL peuvent mettre de côté la cohérence des données au profit d’autres avantages, tels que la disponibilité, le partitionnement et la vitesse d’accès.

Puisqu’il n’y a pas de SQL dans les magasins de données NoSQL, la seule façon d’interroger ce type de base de données est d’utiliser des langages de bas niveau, et il n’y a pas un tel langage qui soit aussi largement accepté que SQL. De plus, il n’y a pas de spécifications standard pour NoSQL. C’est pourquoi, ironiquement, certaines bases de données NoSQL commencent à ajouter la prise en charge des scripts SQL.

MongoDB

MongoDB est un système de base de données NoSQL populaire, qui stocke les données sous forme de documents JSON. Son objectif est l’évolutivité et la flexibilité de stockage des données de manière non structurée. Cela signifie qu’aucune liste de champs fixes ne doit être observée dans tous les éléments stockés. De plus, la structure des données peut être modifiée au fil du temps, ce qui dans une base de données relationnelle implique un risque élevé d’affecter les applications en cours d’exécution.

La technologie de MongoDB permet l’indexation, les requêtes ad hoc et l’agrégation qui constituent une base solide pour l’analyse des données. La nature distribuée de la base de données offre une haute disponibilité, une évolutivité et une distribution géographique sans avoir besoin d’outils sophistiqués.

Redis

Cette l’une est une autre option dans le front NoSQL open-source. Il s’agit essentiellement d’un magasin de structure de données qui fonctionne en mémoire et, en plus de fournir des services de base de données, il fonctionne également comme mémoire cache et courtier de messages..

Il prend en charge une myriade de structures de données non conventionnelles, notamment des hachages, des index géospatiaux, des listes et des ensembles triés. Il est bien adapté à la science des données grâce à ses hautes performances dans les tâches gourmandes en données, telles que le calcul d’intersections d’ensembles, le tri de longues listes ou la génération de classements complexes. La raison des performances exceptionnelles de Redis est son fonctionnement en mémoire. Il peut être configuré pour conserver les données de manière sélective.

Cadres de Big Data

Supposons que vous deviez analyser les données que les utilisateurs de Facebook génèrent pendant un mois. Nous parlons de photos, vidéos, messages, tout cela. Compte tenu du fait que plus de 500 téraoctets de données sont ajoutés chaque jour au réseau social par ses utilisateurs, il est difficile de mesurer le volume représenté par un mois entier de ses données.

Pour manipuler cette énorme quantité de données de manière efficace, vous avez besoin d’un cadre approprié capable de calculer des statistiques sur une architecture distribuée. Il existe deux des cadres qui dominent le marché: Hadoop et Spark.

Hadoop

En tant que cadre de Big Data, Hadoop traite des complexités associées à la récupération, au traitement et au stockage d’énormes piles de données. Hadoop fonctionne dans un environnement distribué, composé de clusters d’ordinateurs qui traitent des algorithmes simples. Il existe un algorithme d’orchestration, appelé MapReduce, qui divise les grandes tâches en petites parties, puis répartit ces petites tâches entre les clusters disponibles.

Hadoop est recommandé pour les référentiels de données d’entreprise qui nécessitent un accès rapide et une haute disponibilité, tout cela dans un schéma à faible coût. Mais vous avez besoin d’un administrateur Linux avec une profonde Connaissances Hadoop de maintenir le cadre et d’exécuter.

Étincelle

Hadoop n’est pas le seul framework disponible pour la manipulation de big data. Un autre grand nom dans ce domaine est Étincelle. Le moteur Spark a été conçu pour surpasser Hadoop en termes de vitesse d’analyse et de facilité d’utilisation. Apparemment, il a atteint cet objectif: certaines comparaisons indiquent que Spark fonctionne jusqu’à 10 fois plus rapidement que Hadoop lorsqu’il travaille sur un disque et 100 fois plus rapide en mémoire. Il nécessite également un plus petit nombre de machines pour traiter la même quantité de données.

Outre la vitesse, un autre avantage de Spark est sa prise en charge du traitement de flux. Ce type de traitement de données, également appelé traitement en temps réel, implique une entrée et une sortie continues de données.

Outils de visualisation

Une plaisanterie courante entre les scientifiques des données dit que, si vous torturez les données assez longtemps, cela confessera ce que vous devez savoir. Dans ce cas, «torture» signifie manipuler les données en les transformant et en les filtrant, afin de mieux les visualiser. Et c’est là que les outils de visualisation des données entrent en scène. Ces outils prennent des données prétraitées de plusieurs sources et montrent ses vérités révélées sous des formes graphiques compréhensibles.

Il existe des centaines d’outils qui entrent dans cette catégorie. Qu’on le veuille ou non, le plus utilisé est Microsoft Excel et ses outils graphiques. Les graphiques Excel sont accessibles à tous ceux qui utilisent Excel, mais leurs fonctionnalités sont limitées. La même chose s’applique à d’autres applications de feuille de calcul, telles que Google Sheets et Libre Office. Mais nous parlons ici d’outils plus spécifiques, spécialement adaptés à la Business Intelligence (BI) et à l’analyse des données.

Power BI

Il n’y a pas longtemps, Microsoft a publié son Power BI application de visualisation. Il peut prendre des données de diverses sources, telles que des fichiers texte, des bases de données, des feuilles de calcul et de nombreux services de données en ligne, y compris Facebook et Twitter, et les utiliser pour générer des tableaux de bord remplis de graphiques, de tableaux, de cartes et de nombreux autres objets de visualisation. Les objets du tableau de bord sont interactifs, ce qui signifie que vous pouvez cliquer sur une série de données dans un graphique pour la sélectionner et l’utiliser comme filtre pour les autres objets du tableau.

Power BI est une combinaison d’une application de bureau Windows (faisant partie de la suite Office 365), d’une application Web et d’un service en ligne pour publier les tableaux de bord sur le Web et les partager avec vos utilisateurs. Le service vous permet de créer et de gérer des autorisations pour accorder l’accès aux forums uniquement à certaines personnes.

Tableau

Tableau est une autre option pour créer des tableaux de bord interactifs à partir d’une combinaison de plusieurs sources de données. Il propose également une version de bureau, une version Web et un service en ligne pour partager les tableaux de bord que vous créez. Il fonctionne naturellement «selon votre façon de penser» (comme il le prétend), et il est facile à utiliser pour les personnes non techniques, ce qui est amélioré grâce à de nombreux tutoriels et vidéos en ligne.

Certaines des fonctionnalités les plus remarquables de Tableau sont ses connecteurs de données illimités, ses données en direct et en mémoire et ses conceptions optimisées pour les mobiles.

QlikView

QlikView offre une interface utilisateur claire et simple pour aider les analystes à découvrir de nouvelles perspectives à partir des données existantes grâce à des éléments visuels facilement compréhensibles pour tout le monde.

Cet outil est connu pour être l’une des plateformes de business intelligence les plus flexibles. Il fournit une fonctionnalité appelée Recherche associative, qui vous aide à vous concentrer sur les données les plus importantes, vous permettant ainsi de gagner du temps pour les trouver par vous-même..

Avec QlikView, vous pouvez collaborer avec des partenaires en temps réel, en effectuant une analyse comparative. Toutes les données pertinentes peuvent être combinées dans une seule application, avec des fonctionnalités de sécurité qui limitent l’accès aux données.

Outils de grattage

À l’époque où Internet émergeait, les robots d’exploration du Web ont commencé à voyager tout au long des réseaux en collectant des informations sur leur chemin. Au fur et à mesure que la technologie évoluait, le terme d’exploration du Web changeait pour le raclage du Web, mais toujours dans le même sens: pour extraire automatiquement les informations des sites Web. Pour effectuer le scraping Web, vous utilisez des processus automatisés, ou bots, qui passent d’une page Web à une autre, en extrayant des données et en les exportant vers différents formats ou en les insérant dans des bases de données pour une analyse plus approfondie.

Ci-dessous, nous résumons les caractéristiques de trois des grattoirs Web les plus populaires disponibles aujourd’hui.

Octoparse

Octoparse Web Scraper offre des caractéristiques intéressantes, notamment des outils intégrés pour obtenir des informations sur des sites Web qui ne facilitent pas le travail des gratteurs de robots. Il s’agit d’une application de bureau qui ne nécessite aucun codage, avec une interface utilisateur conviviale qui permet de visualiser le processus d’extraction via un concepteur de workflow graphique.

Avec l’application autonome, Octoparse propose un service basé sur le cloud pour accélérer le processus d’extraction des données. Les utilisateurs peuvent bénéficier d’un gain de vitesse de 4x à 10x lorsqu’ils utilisent le service cloud au lieu de l’application de bureau. Si vous vous en tenez à la version de bureau, vous pouvez utiliser Octoparse gratuitement. Mais si vous préférez utiliser le service cloud, vous devrez choisir l’un de ses plans payants.

Content Grabber

Si vous cherchez un outil de grattage riche en fonctionnalités, vous devriez mettre un œil sur Content Grabber. Contrairement à Octoparse, pour utiliser Content Grabber, il est nécessaire d’avoir des compétences avancées en programmation. En échange, vous obtenez l’édition de scripts, le débogage des interfaces et d’autres fonctionnalités avancées. Avec Content Grabber, vous pouvez utiliser des langages .Net pour écrire des expressions régulières. De cette façon, vous n’avez pas à générer les expressions à l’aide d’un outil intégré.

L’outil offre une API (Application Programming Interface) que vous pouvez utiliser pour ajouter des capacités de grattage à vos applications de bureau et Web. Pour utiliser cette API, les développeurs doivent obtenir l’accès au service Content Grabber Windows.

ParseHub

Ce grattoir peut gérer une longue liste de différents types de contenu, notamment des forums, des commentaires imbriqués, des calendriers et des cartes. Il peut également traiter des pages qui contiennent l’authentification, Javascript, Ajax, etc. ParseHub peut être utilisé comme une application Web ou une application de bureau capable de s’exécuter sur Windows, macOS X et Linux.

Comme Content Grabber, il est recommandé d’avoir des connaissances en programmation pour tirer le meilleur parti de ParseHub. Il a une version gratuite, limitée à 5 projets, et 200 pages par exécution.

Langages de programmation

Tout comme le langage SQL mentionné précédemment est conçu spécifiquement pour fonctionner avec des bases de données relationnelles, il existe d’autres langages créés en mettant clairement l’accent sur la science des données. Ces langages permettent aux développeurs d’écrire des programmes qui traitent de l’analyse massive de données, comme les statistiques et l’apprentissage automatique.

SQL est également considéré comme une compétence importante que les développeurs devraient avoir pour faire de la science des données, mais c’est parce que la plupart des organisations ont encore beaucoup de données sur des bases de données relationnelles. Les «vrais» langages de science des données sont R et Python.

Python

Python est un langage de programmation polyvalent de haut niveau, interprété, bien adapté au développement rapide d’applications. Il a une syntaxe simple et facile à apprendre qui permet une courbe d’apprentissage abrupte et des réductions des coûts de maintenance du programme. Il existe de nombreuses raisons pour lesquelles il s’agit du langage préféré pour la science des données. Pour en mentionner quelques-uns: potentiel de script, verbosité, portabilité et performances.

Ce langage est un bon point de départ pour les scientifiques des données qui prévoient d’expérimenter beaucoup avant de se lancer dans le travail de crunching de données réel et dur, et qui souhaitent développer des applications complètes.

R

le Langue R est principalement utilisé pour le traitement des données statistiques et la représentation graphique. Bien qu’il ne soit pas destiné à développer des applications à part entière, comme ce serait le cas pour Python, R est devenu très populaire ces dernières années en raison de son potentiel d’exploration de données et d’analyse de données.

Grâce à une bibliothèque sans cesse croissante de packages disponibles gratuitement qui étendent ses fonctionnalités, R est capable de faire toutes sortes de travaux de crunching de données, y compris la modélisation linéaire / non linéaire, la classification, les tests statistiques, etc..

Ce n’est pas une langue facile à apprendre, mais une fois que vous vous familiariserez avec sa philosophie, vous ferez du calcul statistique comme un pro.

IDE

Si vous envisagez sérieusement de vous consacrer à la science des données, vous devrez choisir soigneusement un environnement de développement intégré (IDE) qui répond à vos besoins, car vous et votre IDE passerez beaucoup de temps à travailler ensemble.

Un IDE idéal devrait rassembler tous les outils dont vous avez besoin dans votre travail quotidien de codeur: un éditeur de texte avec mise en évidence de la syntaxe et auto-complétion, un puissant débogueur, un navigateur d’objets et un accès facile aux outils externes. De plus, il doit être compatible avec la langue de votre choix, c’est donc une bonne idée de choisir votre IDE après avoir connu la langue que vous utiliserez.

Spyder

Cette l’IDE générique est principalement destiné aux scientifiques et aux analystes qui ont également besoin de coder. Pour les rendre confortables, il ne se limite pas à la fonctionnalité IDE – il fournit également des outils pour l’exploration / visualisation des données et l’exécution interactive, comme on peut le trouver sur un package scientifique. L’éditeur de Spyder prend en charge plusieurs langues et ajoute un navigateur de classe, la division des fenêtres, le saut à la définition, la complétion automatique du code et même un outil d’analyse de code.

Le débogueur vous aide à tracer chaque ligne de code de manière interactive, et un profileur vous aide à trouver et à éliminer les inefficacités.

PyCharm

Si vous programmez en Python, il est probable que votre IDE de choix sera PyCharm. Il dispose d’un éditeur de code intelligent avec recherche intelligente, complétion de code et détection et correction d’erreurs. En un seul clic, vous pouvez passer de l’éditeur de code à n’importe quelle fenêtre contextuelle, y compris le test, la super méthode, l’implémentation, la déclaration, etc. PyCharm prend en charge Anaconda et de nombreux packages scientifiques, tels que NumPy et Matplotlib, pour n’en nommer que deux.

Il offre une intégration avec les systèmes de contrôle de version les plus importants, ainsi qu’avec un lanceur de test, un profileur et un débogueur. Pour conclure l’affaire, il s’intègre également avec Docker et Vagrant pour permettre le développement multiplateforme et la conteneurisation.

RStudio

Pour les scientifiques des données qui préfèrent l’équipe R, l’IDE de choix devrait être RStudio, en raison de ses nombreuses fonctionnalités. Vous pouvez l’installer sur un bureau avec Windows, macOS ou Linux, ou vous pouvez l’exécuter à partir d’un navigateur Web si vous ne souhaitez pas l’installer localement. Les deux versions offrent des avantages tels que la mise en évidence de la syntaxe, l’indentation intelligente et la complétion de code. Il existe une visionneuse de données intégrée qui est utile lorsque vous devez parcourir des données tabulaires.

Le mode de débogage permet de visualiser la façon dont les données sont mises à jour dynamiquement lors de l’exécution d’un programme ou d’un script étape par étape. Pour le contrôle de version, RStudio intègre la prise en charge de SVN et Git. Un joli plus est la possibilité de créer des graphiques interactifs, avec Shiny et donne des bibliothèques.

Votre boîte à outils personnelle

À ce stade, vous devriez avoir une vue complète des outils que vous devez connaître pour exceller en science des données. De plus, nous espérons que nous vous avons donné suffisamment d’informations pour décider quelle est l’option la plus pratique dans chaque catégorie d’outils. Maintenant, ça ne depent que de toi. La science des données est un domaine florissant développer une carrière. Mais si vous voulez le faire, vous devez suivre les changements de tendances et de technologies, car ils se produisent presque quotidiennement.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map