Accueil Data Kaggle : Le temple de la datascience

Kaggle : Le temple de la datascience

Kaggle_logo

Tout datascientist qui se respecte doit connaître la plateforme Kaggle. C’est une plateforme qui organise des compétitions de datascience en Python et R avec bien souvent du cash prize à la clé.

Que trouve-t-on sur Kaggle ?

Au delà des compétitions, on trouve également un nombre important de datasets, des notebooks/scripts publics (toujours intéressant de voir comment code le top des datascientists), un forum et enfin des cours sur les principales thématiques de la science des données.

Comment cela fonctionne ?

Après inscription, on peut parcourir les différentes compétitions en cours, on distingue plusieurs catégories :

  • compétitions pour débuter qui perdurent dans le temps
  • compétitions avec des prix à gagner dans un temps limité
  • compétitions pour le swag ou la gloire également dans un temps limité

La plateforme étant réputée avec un nombre de participants élevé, il semble compliqué pour le commun des mortels de remporter des prix. Cependant participer à des compétitions permet de développer ses compétences et surtout d’accumuler des points et ainsi pouvoir grimper dans le classement des Kagglers. On imagine aisément qu’accéder au rang ultime de Grandmaster sur Kaggle vous ouvre des portes dans votre carrière de datascientist.

Capture

En pratique, comment démarrer ?

La première étape consiste à choisir une compétition et s’y inscrire, il est recommandé de commencer par les compétitions pour débutants comme le challenge du Titanic.

Vous pouvez créer votre notebook ou votre script directement sur la plateforme, le plus simple est de faire un fork d’un notebook existant :

ce

Mais vous pouvez créer un nouveau notebook. Le fonctionnement est comparable à Jupyter mais sur le site de Kaggle, vous avez accès à un cloud 16GB RAM, 5GB d’espace disque et une option GPU pour faire du deep learning. Toutes les libraries et packages les plus utilisés sont déjà installés (Kaggle utilise des images Docker) et un système de versionnage est présent.

Le principe en quelques mots

Pour chaque compétition, on retrouve les data qui sont découpées en un jeu de données d’entrainement train et un jeu de données de test test.

Le principe consiste à développer un ou des modèles sur le jeu d’entrainement puis faire des prédictions sur le jeu de données test pour ensuite le soumettre sur la plateforme (avec une limite quotidienne).

On obtient ainsi un score sur les prédictions et donc un classement par rapport aux autres participants.

Charger d'autres articles liés
Charger d'autres écrits par healthdata
Charger d'autres écrits dans Data

Laisser un commentaire

Consulter aussi

Qu’est-ce que Tidyverse ?

En tant qu’utilisateur de R vous avez certainement déjà entendu parler de Tidyverse.…