J’ai 26 ans, j’ai fait l’école d’ingénieur des Mines Nancy. Pendant cette formation, je ne savais pas ce vers quoi j’allais me diriger. Je me cherchais un peu, c’est pourquoi j’ai décidé de faire une année de césure pendant laquelle j’ai effectué deux stages, dans deux secteurs radicalement différents. Dans le premier, je faisais de la gestion de portefeuille et dans le second j’étais en charge de la prévision des ventes en supply chain chez Lu. À la fin de cette année, je me suis orienté vers la spécialisation Data mining de l’ENSAE qui était davantage reconnu que les Mines de Nancy dans ce domaine.
J’ai opté pour le Master spé Data science, à la fin duquel j’ai fait un stage en Bio statistiques. J’analysais les data pour la détection des cancers. À la suite de ce stage, je souhaitais poursuivre l’aventure dans une startup en tant que data scientist, et j’ai été recruté par Dataiku chez qui je travaille depuis 1 an et demi.
Le métier de data scientist est en réalité composé de plusieurs types de profils. En effet, on retrouve des personnes plus spécialisées sur le machine learning, l’architecture ou l’algorithmie. Le data scientist part de données brutes qui ne sont pas interprétables, il doit analyser quelles données extraire pour les rendre sous une forme exploitable et en faire ressortir des indicateurs concrets. Pour ce faire, ce scientifique des données travaille avec divers algorithmes, il est donc essentiel que celui-ci possède des compétences très techniques en algorithmie, développement et mathématiques. Il analyse les data récupérées par l’entreprise (les clients, les prospects, les employés...) dans le but d’utiliser celles-ci à des fins qui pouvant aller du marketing, à la détection de fraude en passant par la reconnaissance d'image.
Le data scientist est également en charge d’identifier les leviers actionnables pour le Business. Il effectue ensuite des recommandations pour améliorer le produit, le service ou encore la performance de l’entreprise. Bien entendu le data scientist n’est qu’un élément de la chaîne, il travaille en étroite collaboration avec d’autres services qui ont une vision orientée plus business (marketing ou commercial). Après l’exploitation des données et la phase de machine learning, le data scientist restitue ses data et ses recommandations, généralement au service marketing qui fera le lien avec la partie business de l’entreprise. Le machine learning demeure très important pour le data scientist.
Il s’apparente à une utilisation conjointe de quantités massives d’informations et d’algorithmes, qui permet de découvrir des corrélations significatives entre les données. Il peut arriver qu’un client nous demande de travailler spécifiquement sur des problématiques et que l’on s’aperçoive grâce à la data, que d’autres leviers initialement non identifiés par l’entreprise peuvent améliorer la performance de celle-ci.
Un des outils le plus utilisé par le Data scientist est sans conteste Hadoop qui permet d’exploiter des grosses bases de données. Je me sers du langage python pour le machine learning et l’exploration de data set (essentiellement des bases de données de petite taille). Chez Dataiku, nous proposons, à nos clients, un outil qui s’appelle data science studio, qui m’aide au quotidien dans mon travail de data scientist. Enfin pour le domaine de la Business intelligence, j’ai recours à Vertica et Greeplum qui me sont très utiles pour travailler sur des bases de données dites « plus verticales » (en colonne).
Pour moi, la différence majeure se situe dans le type de données analysées. Un data analyst manipule des données déjà plus ou moins formatées qui sont exploitables immédiatement. En revanche, le data scientist part quasiment d’une feuille vierge avec une quantité de datas brutes impressionnantes à exploiter. Celui-ci travaille plus en amont de la chaîne que le data analyst, il est en charge d’extraire toutes les données et d’en donner une signification. C’est en quelque sorte le travail préliminaire à celui du data analyst. Il est beaucoup plus orienté business qu’un data scientist et se situe à la fin du process de data science.
A l’heure actuelle, il y a très peu de data scientists, empiriquement parlant. C’est un métier qui est amené à se développer dans les prochaines années. Les besoins des entreprises sont grandissants, je pense qu’il va y avoir une croissance importante du nombre de data scientists aussi bien dans les grandes entreprises que les startups. La Data est un enjeu majeur pour les sociétés, nous le constatons tous les jours chez Dataiku. De plus, à l’avenir, on assistera à une segmentation du métier. En effet, certains data scientists seront plus spécialisés sur le machine learning, d’autres sur l’architecture. Je crois également que la dimension conseil va s’exporter de plus en plus afin de montrer aux entreprises, les opportunités à saisir grâce à la data.
Vous voulez connaître le salaire d'un data Scientist ? C’est par ici !