Aide pour orientation en Data Science

Recherche :

Mot : Pseudo : Filtrer
Page : 1 2 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Aide pour orientation en Data Science

susha

Reprise du message précédent :

youstiti a écrit :

Un conseil aussi :
bosses par toi même.
Si tu perfs sur un concours Kaggle par exemple, t'es repéré, et là presque osef de ton école (enfin j'exagère un peu mais bon...).
R et Python tu peux les bosser par toi même

Bonjour youstiti, merci pour tes conseils

Je vais me renseigner sur les concours Kaggle, bien que ça me paraisse assez technique, il est évident que c'est un énorme plus sur un CV. En ce qui concerne les logiciels que tu a cité, nous avons essentiellement travailler sur R en L2 et L3. Ce serais prétentieux de dire que je maitrise ce logiciel, disons que je sais l'utiliser. On y a eu recourt pour: les statistiques, économétrie, économétrie appliquée, et le projet du second semestre de L3.
Mais je suppose que sont utilité ne ce limite pas qu'à cela et il y'a encore des tas de choses à apprendre.
Pour Python il me semble que c'est un logiciel alternatif/concurent.

Est ce que tu travaille dans le "Big Data" ? Si oui quel est ton parcourt ?
A tu de la lecture à me conseillé ?

Publicité

youstiti

Il faut choisir ses concours sur le site, certains sont "accessibles".
Moi je suis en dernière année d'actuariat.
Python tu peux apprendre par toi même .

Ce que je peux te conseiller, c'est de regarder sur le forum Kaggle également, certaines équipes partagent leurs codes, ce qui permet d'apprendre de nouvelles fonctions, et de voir ce que font les "meilleurs". Y a pas mal de package qui existent sous R aussi .
Un des premiers que j'avais regardé c'est celui-ci :
https://www.kaggle.com/c/titanic
y a un petit tuto pour python avec :
https://www.kaggle.com/c/titanic/de [...] ith-python

Après sans pour autant viser à faire une perf, ça te permet, je pense, de progresser .

J'ai fait celui là aussi :
https://www.kaggle.com/c/santander- [...] tisfaction
Je pourrais t'envoyer mes codes R si tu as besoin, mais sur le forum tu trouveras plus optimal je pense .

Après faut pas forcément te focaliser là dessus, parce que perfer est difficile, mais si t'as du temps libre, je pense que c'est un moyen sympa pour progresser (attention ça peut être très chronophage^^).

Rasthor

youstiti a écrit :

Un conseil aussi :
bosses par toi même.
Si tu perfs sur un concours Kaggle par exemple, t'es repéré, et là presque osef de ton école (enfin j'exagère un peu mais bon...).
R et Python tu peux les bosser par toi même

C'est quoi le concept en fait ? :??:
Edit: ah ben y'a meme un wiki: https://fr.wikipedia.org/wiki/Kaggle

Y'a des exercices pour debutant ? Genre tu obtiens les donnees, tu essayes de predire un modele, et tu testes si ta prediction est aussi bonne que ce qu'un pro peut faire ?

Message édité par Rasthor le 15-08-2016 à 19:37:42

youstiti

Y a pas de notion de facilité, c'est à toi de faire le meilleur modèle .

En gros t'as des données (ça peut être bcp de choses), pour le titanic de mémoire t'avais genre l'âge des passagers, la classe de voyage, le sexe, le quai d'embarquement, etc, etc et il faut prédire une valeur (par exemple pour le titanic la personne a t elle survécu ou non ?).

En général tu as des données sur lesquelles tu as la solution (s'il a survécu ou non), et des données (la base de résultat), où t'as juste les infos sexe, classe de voyage, etc, et sur lesquelles tu vas devoir donner un résultat (tu vas faire tourner ton meilleur modèle dessus, et rendre ta solution au concours ).

Pour déterminer le "meilleur" modèle, en supervisé, moi je divise ma base de données en deux :
-Une base d'apprentissage, sur laquelle tu vas calibrer tes modèles.
-Une base de test sur laquelle tu vas vérifier que les modèles restent performant.

Pourquoi ?
Pour éviter ce qu'on appelle le surapprentissage.
Le surapprentissage c'est quoi ?

En gros, si tu fais tourner un réseau de neurones (par exemple) trop longtemps, il peut te trouver un modèle parfait assez souvent (ie avec 0% d'erreur). Par exemple (je te donne un exemple très con), si tu as dans ta base de donnée le nom et le prénom de la personne, il peut très bien les utiliser en variable, et te dire que si tu lui donnes le nom et prénom d'une personne il peut te dire s'il a survécu ou non... Le problème c'est qu'évidement ça ne t'intéresse pas, car tu veux pouvoir prédire sur de nouveaux individus ensuite (je sais pas si c'est très clair ?).

Donc là ce qui se passerait avec un modèle qui utilise nom et prénom en variables :
-> tu calibres ton modèle sur la base d'apprentissage -> 0% d'erreur
-> tu testes sur la base de test (et là il ne connait pas les nouveaux noms et prénoms)-> tes résultats sont pourris, et tu te rends compte que tu dois changer ton modèle .

Du coup, tu calibres ton modèle sur la base d'apprentissage, et tu regardes ensuite sur la base de test sa perf, pour choisir le meilleur.

A noter que tu peux vouloir cibler une perf générale (taux d'erreur faible), ou alors être plus précis (par exemple, dans le cas d'une banque qui veut déterminer quels clients accepter, on peut être confronté à la problématique suivante :
la population comporte 99.5% de "bons payeurs" dans la base de donnée de la banque, si notre modèle prédit 100% de "bons payeurs", il a un taux d'erreur de 0.5%, mais le modèle est INUTILE...
Voilà le genre de problématique assez intéressantes, qui peuvent arriver ).

Sinon pour Kaggle, ce sont souvent des entreprises qui fournissent leur données, elles mettent de l'argent en jeu pour motiver du monde (souvent des sommes importantes), ça leur coûte probablement moins cher qu'employer une équipe en interne, et y a du beau monde sur le concours.
En revanche, il est a noter, que pour des questions de confidentialités, il n'est pas rare d'avoir des données anonymisées (tu ne sais pas à quoi correspondent tes variables), et souvent des données bidons sont ajoutées pour rajouter à l'anonymat des données.
Enfin, attention à choisir des concours faisables, certaines bases de données ont des tailles relativement grosses que tu ne pourras pas forcément traiter facilement .

Message cité 1 fois

susha

Bonjour à tous

Je viens de finaliser mon inscription pour le M1 Ingénierie Économique et Statistique de Paris2, et je ne regrette pas de partir pour Paris.
Pour en revenir au concours Kaggle les sujets traités sont vachement intéressants. Ça à tellement de charme le traitement de données !
Cette année par exemple avec mon groupe de projet on a traiter d'un sujet qui n'était même pas économique: la prévalence du SIDA en Afrique Subsaharienne. On a récupérer les données sur des sites reconnus du genre PNUD, Banque Mondiale, OMS, et on a créer plusieurs modèles. Le modèle retenu nous donnais les résultats trouvés sur les cartes d'Afrique que l'on trouve sur internet, a savoir les zones les plus/moins touchées (je rentre pas trop dans les détails ça serais trop long/compliqué). Je vais surement participer à l'un de ces concours si j'en ais l'opportunité.

Y'a t'il des anciens du Master ISF qui pourraient me conseiller ?
http://isf.u-paris2.fr/master-1/en [...] -master-1/
A quoi correspondent les matières calcul stochastique et contrôle optimale ?
Comment est l'ambiance au Centre Assas ?

Message cité 1 fois

Rasthor

youstiti a écrit :

Y a pas de notion de facilité, c'est à toi de faire le meilleur modèle .

En gros t'as des données (ça peut être bcp de choses), pour le titanic de mémoire t'avais genre l'âge des passagers, la classe de voyage, le sexe, le quai d'embarquement, etc, etc et il faut prédire une valeur (par exemple pour le titanic la personne a t elle survécu ou non ?).

En général tu as des données sur lesquelles tu as la solution (s'il a survécu ou non), et des données (la base de résultat), où t'as juste les infos sexe, classe de voyage, etc, et sur lesquelles tu vas devoir donner un résultat (tu vas faire tourner ton meilleur modèle dessus, et rendre ta solution au concours ).

Pour déterminer le "meilleur" modèle, en supervisé, moi je divise ma base de données en deux :
-Une base d'apprentissage, sur laquelle tu vas calibrer tes modèles.
-Une base de test sur laquelle tu vas vérifier que les modèles restent performant.

Pourquoi ?
Pour éviter ce qu'on appelle le surapprentissage.
Le surapprentissage c'est quoi ?

En gros, si tu fais tourner un réseau de neurones (par exemple) trop longtemps, il peut te trouver un modèle parfait assez souvent (ie avec 0% d'erreur). Par exemple (je te donne un exemple très con), si tu as dans ta base de donnée le nom et le prénom de la personne, il peut très bien les utiliser en variable, et te dire que si tu lui donnes le nom et prénom d'une personne il peut te dire s'il a survécu ou non... Le problème c'est qu'évidement ça ne t'intéresse pas, car tu veux pouvoir prédire sur de nouveaux individus ensuite (je sais pas si c'est très clair ?).

Donc là ce qui se passerait avec un modèle qui utilise nom et prénom en variables :
-> tu calibres ton modèle sur la base d'apprentissage -> 0% d'erreur
-> tu testes sur la base de test (et là il ne connait pas les nouveaux noms et prénoms)-> tes résultats sont pourris, et tu te rends compte que tu dois changer ton modèle .

Du coup, tu calibres ton modèle sur la base d'apprentissage, et tu regardes ensuite sur la base de test sa perf, pour choisir le meilleur.

A noter que tu peux vouloir cibler une perf générale (taux d'erreur faible), ou alors être plus précis (par exemple, dans le cas d'une banque qui veut déterminer quels clients accepter, on peut être confronté à la problématique suivante :
la population comporte 99.5% de "bons payeurs" dans la base de donnée de la banque, si notre modèle prédit 100% de "bons payeurs", il a un taux d'erreur de 0.5%, mais le modèle est INUTILE...
Voilà le genre de problématique assez intéressantes, qui peuvent arriver ).

Sinon pour Kaggle, ce sont souvent des entreprises qui fournissent leur données, elles mettent de l'argent en jeu pour motiver du monde (souvent des sommes importantes), ça leur coûte probablement moins cher qu'employer une équipe en interne, et y a du beau monde sur le concours.
En revanche, il est a noter, que pour des questions de confidentialités, il n'est pas rare d'avoir des données anonymisées (tu ne sais pas à quoi correspondent tes variables), et souvent des données bidons sont ajoutées pour rajouter à l'anonymat des données.
Enfin, attention à choisir des concours faisables, certaines bases de données ont des tailles relativement grosses que tu ne pourras pas forcément traiter facilement .

Merci beaucoup pour les précisions. :jap:

Je vais deja essayer les données du Titanic.

Message édité par Rasthor le 19-08-2016 à 11:10:20

susha

susha a écrit :

Bonjour à tous

Y'a t'il des anciens du Master ISF qui pourraient me conseiller ?
http://isf.u-paris2.fr/master-1/en [...] -master-1/
A quoi correspondent les matières calcul stochastique et contrôle optimale ?
Comment est l'ambiance au Centre Assas ?

Up !

susha

Bonjour à tous

Y'a t'il des Data Scientist/Analyst parmi vous ?

Si oui :love: :

Quel est votre parcourt ?
Quel poste occupez vous ?
Quels sont les travaux demandés en entreprise ?
Quels outils informatique (logiciels) utilisez vous ?
Avez vous de la lecture à conseiller ?

En vous remerciant d'avance !

Message cité 1 fois

susha

susha a écrit :

susha

Publicité

Rasthor

Big data jobs are out there – are you ready?
http://blogs.nature.com/naturejobs [...] you-ready/

So you want to be a data scientist?
http://blogs.nature.com/naturejobs [...] scientist/

Message édité par Rasthor le 16-09-2016 à 16:33:29

Publicité

Page : 1 2

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

Aide pour orientation en Data Science

Sujets relatifs
Orientation bloquer ouloulou	Orientation Après-Bac
Orientation Esc	Aide lettre de motivation
2 recruteurs, 1 candidate, 4 possibilités : à l'aide !	ré-orientation apres 15 ans dans la restauration
CONSEIL orientation	Mieux vaut tard que jamais : orientation
Master Big Data
Plus de sujets relatifs à : Aide pour orientation en Data Science

Page générée en 0.056 secondes