youstiti a écrit :
Y a pas de notion de facilité, c'est à toi de faire le meilleur modèle . En gros t'as des données (ça peut être bcp de choses), pour le titanic de mémoire t'avais genre l'âge des passagers, la classe de voyage, le sexe, le quai d'embarquement, etc, etc et il faut prédire une valeur (par exemple pour le titanic la personne a t elle survécu ou non ?). En général tu as des données sur lesquelles tu as la solution (s'il a survécu ou non), et des données (la base de résultat), où t'as juste les infos sexe, classe de voyage, etc, et sur lesquelles tu vas devoir donner un résultat (tu vas faire tourner ton meilleur modèle dessus, et rendre ta solution au concours ). Pour déterminer le "meilleur" modèle, en supervisé, moi je divise ma base de données en deux : -Une base d'apprentissage, sur laquelle tu vas calibrer tes modèles. -Une base de test sur laquelle tu vas vérifier que les modèles restent performant. Pourquoi ? Pour éviter ce qu'on appelle le surapprentissage. Le surapprentissage c'est quoi ? En gros, si tu fais tourner un réseau de neurones (par exemple) trop longtemps, il peut te trouver un modèle parfait assez souvent (ie avec 0% d'erreur). Par exemple (je te donne un exemple très con), si tu as dans ta base de donnée le nom et le prénom de la personne, il peut très bien les utiliser en variable, et te dire que si tu lui donnes le nom et prénom d'une personne il peut te dire s'il a survécu ou non... Le problème c'est qu'évidement ça ne t'intéresse pas, car tu veux pouvoir prédire sur de nouveaux individus ensuite (je sais pas si c'est très clair ?). Donc là ce qui se passerait avec un modèle qui utilise nom et prénom en variables : -> tu calibres ton modèle sur la base d'apprentissage -> 0% d'erreur -> tu testes sur la base de test (et là il ne connait pas les nouveaux noms et prénoms)-> tes résultats sont pourris, et tu te rends compte que tu dois changer ton modèle . Du coup, tu calibres ton modèle sur la base d'apprentissage, et tu regardes ensuite sur la base de test sa perf, pour choisir le meilleur. A noter que tu peux vouloir cibler une perf générale (taux d'erreur faible), ou alors être plus précis (par exemple, dans le cas d'une banque qui veut déterminer quels clients accepter, on peut être confronté à la problématique suivante : la population comporte 99.5% de "bons payeurs" dans la base de donnée de la banque, si notre modèle prédit 100% de "bons payeurs", il a un taux d'erreur de 0.5%, mais le modèle est INUTILE... Voilà le genre de problématique assez intéressantes, qui peuvent arriver ). Sinon pour Kaggle, ce sont souvent des entreprises qui fournissent leur données, elles mettent de l'argent en jeu pour motiver du monde (souvent des sommes importantes), ça leur coûte probablement moins cher qu'employer une équipe en interne, et y a du beau monde sur le concours. En revanche, il est a noter, que pour des questions de confidentialités, il n'est pas rare d'avoir des données anonymisées (tu ne sais pas à quoi correspondent tes variables), et souvent des données bidons sont ajoutées pour rajouter à l'anonymat des données. Enfin, attention à choisir des concours faisables, certaines bases de données ont des tailles relativement grosses que tu ne pourras pas forcément traiter facilement .
|