Faire de la science des données dans le nuage avec ScraperWiki

  • William Charles
  • 0
  • 4980
  • 1481
Publicité

Si vous avez les qualités psychologiques, le flair pour la programmation et la narration, et le sens du design, vous pouvez faire pire que de vous lancer dans la science des données. C'est la nouvelle grande chose dans la technologie; très en vogue et très bien rémunéré, les données scientifiques étant recherchées par certaines des plus grandes entreprises du monde.

ScraperWiki est une entreprise qui a longtemps été associée au domaine de la science des données. Depuis quelques années, cette startup basée à Liverpool offre aux développeurs une plate-forme pour écrire des outils permettant de récupérer, de nettoyer et d'analyser des données dans le cloud..

Avec une actualisation récente et la demande toujours croissante de scientifiques de données dans l'entreprise, il convient de jeter un coup d'œil à ScraperWiki.

Divulgation complète: j'étais stagiaire à ScraperWiki l'été dernier.

Que fait ScraperWiki??

ScraperWiki se présente comme un lieu d’obtention, de nettoyage et d’analyse des données, et répond à chacun de ces objectifs. Sous sa forme la plus simple, il vous permet - à l'utilisateur - de créer un code permettant d'extraire les données d'une source, de les convertir en un format facile à analyser et de les stocker pour les visualiser ultérieurement. peut aussi manipuler avec ScraperWiki.

Il est également livré avec un certain nombre d'outils prédéfinis qui automatisent les tâches répétitives, notamment l'obtention de données à partir de fichiers PDF, qui sont notoirement difficiles à décoder. Ceci est en plus de la recherche sur Twitter 5 astuces de recherche Twitter cool pour surveiller ce que les gens disent de vous 5 astuces de recherche Twitter pour surveiller ce que les gens disent de vous Si vous possédez un site Web ou si vous essayez juste de gagner de l'argent en ligne en tant que pigiste, il est toujours bon de savoir ce que les gens disent de vous sur Internet. Les gens citent peut-être… et grattent des services publics. Vous n'avez besoin d'aucune expérience en développement logiciel pour utiliser ces logiciels..

Coût

Comme mentionné précédemment, ScraperWiki adopte le modèle de tarification freemium et propose un service comportant plusieurs niveaux. Ceux qui débutent avec la science des données ou avec des besoins limités peuvent utiliser le service gratuit. Cela vous donne trois jeux de données - où vous stockez vos données et votre code.

Ceux qui envisagent d'écrire plusieurs scrapers ou de faire des montagnes d'analyse de données peuvent débourser de l'argent pour un compte premium. Ceux-ci commencent à 9 $ par mois et offrent 10 jeux de données. Si cela ne vous suffit toujours pas, vous pouvez toujours passer au niveau supérieur, qui comprend 100 jeux de données et coûte 29 $ par mois..

Codage

Les programmeurs sont souvent assez particuliers quant à la manière dont ils codent. Certains préfèrent les langages de script aux langages compilés. Certains préfèrent l'expérience réduite d'un éditeur de texte à celle d'un environnement de développement intégré (IDE). ScraperWiki le reconnaît et donne à l'utilisateur un choix énorme en matière d'écriture de code..

Si vous le souhaitez, vous pouvez écrire votre code dans le navigateur. Comme on peut s'y attendre de la part de n'importe quel professionnel basé sur le Web. Les 3 principaux IDE basés sur un navigateur à coder dans le cloud Les 3 principaux outils de développement IDE basés sur un navigateur à coder dans le cloud offrent des fonctionnalités que tout programmeur envisagerait être essentiel, comme la coloration syntaxique.

Plusieurs langues sont proposées. Ceux-ci incluent Python Les 5 meilleurs sites Web pour apprendre la programmation Python Les 5 meilleurs sites Web pour apprendre la programmation Python Vous voulez apprendre la programmation Python? Voici les meilleurs moyens d'apprendre Python en ligne, dont beaucoup sont entièrement gratuits. , un langage de script populaire utilisé par Google et la NASA; Ruby 3 Méthodes interactives, amusantes et gratuites pour commencer à apprendre le langage de programmation Ruby 3 Méthodes interactives, amusantes, gratuitement, pour commencer à apprendre Le langage de programmation Ruby Ruby est un langage de script expressif de très haut niveau. Il est utilisé sur le Web principalement dans le cadre du cadre de développement Web de Ruby on Rails, mais également de manière autonome. Si vous êtes curieux de savoir ce que Ruby (pas…, qui alimente un certain nombre de sites Web populaires tels que Living Social; et le langage d'analyse statistique populaire, R.

En outre, vous pouvez également écrire du code à partir de la ligne de commande en utilisant SSH, Git et l’éditeur de texte que vous aimez utiliser. Oui, tu l'as bien lu. SSH Qu'est-ce que SSH et en quoi il diffère du FTP [Technologie expliquée] Qu'est-ce que SSH et en quoi il est différent du FTP [Technologie expliquée]. Chaque boîte que vous utilisez est son propre compte Linux, et vous pouvez vous y connecter comme vous le feriez avec un compte VPS ou tout autre compte shell. Il existe un certain nombre d'éditeurs de texte disponibles, y compris Vim Les 7 principales raisons de donner une chance à l'éditeur de texte Vim Les 7 principales raisons de donner une chance à l'éditeur de texte Vim Pendant des années, j'ai essayé un éditeur de texte après l'autre. Vous l'appelez, je l'ai essayé. J'ai utilisé chacun de ces rédacteurs pendant plus de deux mois comme rédacteur principal quotidien. D'une certaine manière, je… qui peut être étendu avec des plugins et en modifiant la configuration. Ceux qui sont intimidés par Vim peuvent utiliser Nano, un éditeur de texte en ligne de commande léger..

Les bibliothèques installées devraient suffire pour que les outils d’écriture récupèrent les données et les traitent. Si vous avez besoin de quelque chose de plus obscur, vous pouvez toujours créer un virtualenv à partir de la ligne de commande. Comme vous pouvez le constater, les développeurs disposent d’une grande flexibilité..

Visualisation de données

Donc, vous avez vos données. Vous l'avez normalisé. Vous l'avez nettoyé. Vous l'avez analysé. Il est maintenant temps de faire de la visualisation et de montrer au monde ce que vous avez appris.

ScraperWiki permet aux développeurs d’afficher leurs données à l’aide de pages Web construites à partir de la trifecta bien connue de HTML, CSS et JavaScript. De plus, les composants Bootstrap sont pris en charge immédiatement..

Un certain nombre de visualisations prédéfinies sont disponibles, y compris celles qui affichent vos données sur une carte et trouvent les tendances au sein de vos résultats. Pour les utiliser, vous devez vous assurer que vos données sont stockées sous forme de fichier SQLite avec le nom de fichier 'scraperwiki.sqlite'. Ensuite, vous ajoutez simplement la visualisation qui vous intéresse. Simple, à droite?

Conclusion

ScraperWiki en offre beaucoup aux développeurs qui souhaitent analyser certaines données sans que leur environnement de développement ne les gêne, tout en ayant la flexibilité de satisfaire même les utilisateurs les plus exigeants. Mais que pensez-vous? Faites-moi savoir dans les commentaires ci-dessous.
Crédit photo: Rocket Science (Dan Brown)




Personne n'a encore commenté ce post.

De la technologie moderne, simple et abordable.
Votre guide dans le monde de la technologie moderne. Apprenez à utiliser les technologies et les gadgets qui nous entourent chaque jour et à découvrir des choses intéressantes sur Internet.