Élu par Harvard Business Review comme le métier le plus sexy du 21ème siècle, la data science est à la une de l’actualité. 

Et comme pour chaque nouvelle mode, elle est victime de “papotage” qui induit les débutants en ce domaine en erreurs.

Pour chaque nouvelle discipline, Il est important de comprendre ses fondamentaux, ses engagements et ses pratiques avant de s’y engager. 

Voici quelques erreurs que les nouveaux data scientists, pris dans la vague de popularité de cette nouvelle branche, commettent, faute de renseignements. 

– Des idées reçues du métier de Data Scientist 

Comme pour tout métier, il faut bien comprendre les implications de celui-ci avant même de s’engager. 

La première chose à garder à l’esprit est que le métier de Data Scientist n’est pas un métier d’application, comme l’indiquait la pensée commune. C’est plutôt un métier d’analyse et de réflexion.

Mais la data science est à la mode, et la demande des entreprises pour les pratiquants de ce métier ne cesse d’augmenter.

Les profils de data scientists sur LinkedIn
Les profils de data scientists sur LinkedIn

Suivre le “Hype” actuel concernant ce métier, n’est pas un bon choix. Car, déjà, il en dresse une image faussée. Et surtout, il en suit que plusieurs personnes souhaitent devenir des Data Scientists juste pour suivre la tendance sans pour autant être passionnés ni connaître réellement les implications du métier. 

– Ne pas connaître son profil

Ce point est aussi valable pour tout autre métier. Je ne veux pas dire par là que le Data Scientist possède un profil type ! Mais des caractéristiques en communs, à savoir un sens scientifique, une curiosité et un goût pour l’interrogation…

Un Data Scientist donne plus d’importance au processus qu’au coding lui-même. En effet, trois ligne de code peuvent suffire pour répondre à un besoin complexe.

Vous vous demandez pourquoi de telles exigences ? Les points suivant vous fourniront l’explication nécessaire. 

picture blog
Le métier de Data Scientist

– L’outil informatique au cœur de votre travail 

Le data scientist ne doit pas considérer l’utilisation de l’outil informatique en tant qu’étape majeure. 

Effectivement, dans mon poste de “R&D engineer/ Data Sientist” j’ai passé une très grande partie de mon temps à étudier les phénomènes physiques, météorologiques et les mécanismes d’électricités. On s’est surtout intéressé au problème d’un côté scientifique, et on a essayé d’avoir un maximum de data fiable. L’outil informatique à utiliser pour traiter cette data ne vient qu’en second lieu. 

Donc, la règle pour tous les débutants en data science est d’accorder 70% du travail est dans la préparation de la data pour pouvoir être utilisable par les algorithmes. Pour moi, c’est l’étape la plus critique. Un data scientist qui définit l’architecture des base de données est chanceux car dans la plupart du temps il utilise des data qui proviennent de base soit extérieurs ou conçues par des autres, d’où le besoin d’adapter cette data a ses scripts/algo). 

” Les data scientists devraient se rappeler que, souvent, l’innovation n’est pas d’apporter des algorithmes sophistiqués, mais plutôt une valeur au client” – Damian Mingle

– Ne pas mettre la main dans la pâte 

Vous pensez sûrement que vous serez tout le temps cloisonné entre 4 murs, derrière deux écrans géants en analysant des chartes et des graphiques…

Autant vous l’annoncer dès maintenant, ceci n’est pas toujours vrai. Dans certains, il y aura certainement un bon temps de travail alloué à faire des recherches sur le métier traité, du moins, si vous voulez créer un bon modèle prédictif. 

Pour ma part, j’ai longtemps porté la casquette des travailleurs sur les voies ferrées. On a eu un échange important d’informations dans le but de détecter le problème et d’y trouver une solution

Pour une bonne analyse fonctionnelle de l’environnement, pas le choix, vous devez aller sur le terrain

– La peur des tests 

La data vous vient en quantité énorme. Les milliers de lignes cachent beaucoup de choses. La visualisation entre en jeu pour faire parler la data, elle permet de dégager ses corrélations et de les mettre en évidence. 

Mais cette dernière passe par des tests. N’allez surtout pas croire que vous allez trouver la relation entre les variables au bout de la première tentative. 

Vous devez à chaque fois faire imaginer des nouveaux variables, en sortir d’autres et les mettre en relation pour voir s’il y en a quelques-unes qui dégagent quelque chose. 

Un graphique en camembert peut mettre un certain facteur sous les feux des projecteurs alors qu’un autre graphique obtenu suite à un nième essaie peut faire entrer d’autres variables improbables dans l’équation. 

– Trop de théorie… tue la théorie !

C’est important de comprendre la théorie. Mais au delà à en arriver à y perdre un temps précieux, cela n’en vaut pas le coup… L’algèbre et les statistiques sont des domaines immenses. Un data scientist se focalise sur la problématique sur laquelle il travaille et non pas sur le côté mathématique ou statistique. 

Par exemple, le vrai défi d’un data scientist qui travaille sur l’optimisation de l’offre et de la demande des moyens de transport est de créer une méthode, ou plutôt un modèle, de prédiction du nombre de personnes utilisant un moyen de transport donné. Pour cela, il doit trouver et collecter une data fiable pour en déduire l’impact du facteur météorologique, par exemple, (chaleur, pluie), social (grève), géographique ou même ou événementiel (match de foot)… 

Une fois la data collectée, on parlera de machine learning. Et ici, il suffit d’un “simple” algorithme de classification, qui ne demande pas des connaissances poussées des concepts de statistiques, mais juste de pouvoir définir de quel type de régression il s’agit. 

On peut également laisser cette tâche à un professionnel du domaine; un ingénieur en machine learning, qui sera beaucoup plus habile avec les outils mathématiques et statistiques. 

– Oublier les compétences de communication

Un data scientist est un storyteller. Il doit impérativement savoir communiquer l’information. Il l’interprète, la simplifie et la présente à une audience variée. 

Il prend, donc, en considération les profils devant qui il se tient et leur présente l’information,vulgarisée, dans un discours qui leur est adapté et en utilisant leurs langages.  

Pour faire court, il est la voix de la data

quote
“Sometimes reality is too complex. Stories give it form.” –Jean Luc Godard

Les erreurs que les débutants en data science commettent sont surtout causées par une mauvaise perception de ce métier. C’est un métier en vogue, oui ! mais qui est sujet à plusieurs idées reçues, par forcément exactes ! 

Attention à ne pas commettre ces erreurs et votre début en Data Science n’en sera que meilleure. 

Leave a comment

Your email address will not be published. Required fields are marked *