[Topic Unique] Statistiques descriptives, inférentielles & dataviz

Recherche :

Mot : Pseudo : Filtrer
Page : 1 2 3 4 5 6 7 8 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Statistiques descriptives, inférentielles & dataviz

Rasthor

Reprise du message précédent :
Personne pour mon problème ci-dessus ?

Publicité

fusion_sadam

Alors de mémoire il me semble que le test exact de Fisher c'est utile si les effectif théorique sont très faible.
Dans ton cas, utilise plutôt un test du khi deux et pas de souci pour une table 2x3.

Avec un khi deux l’hypothèse est H0 : les variables X et Y sont indépendantes

Mais ça te dira pas explicitement si la différence observé est du à une modalité en particulier.
Je suppose que l’intérêt de la procédure que tu décrit est de faire des tests deux à deux pour voir si une modalité est significativement différente de toute les autres.
(du coup multiplication des tests -> augmentation du risque alpha -> correction de Bonferroni )

---------------
On sait pas trop quoi dire dans des circonstances pareilles...

Rasthor

Oui, je pourrais aussi mettre un Khi2. Je l'ai d'ailleurs teste, les resultats sont vraiment tres proches.

Mais ca a un nom particulier la procédure que j'ai fait ? :??:

lefilpourpre

Michel

Drap ici le nouveau Dioscur.

---------------
Miraisin

Profil supprimé

:hello:

lefilpourpre

Michel

#compétition entre différents modèles

Alors ... j'ai une question assez pointue (je m'adresse en particulier à Magic Panda, Heisenberg et CobbDouglas) à propos des instruments de mesure de la performance d'un modèle prédictif.

DONC : Je souhaite faire une compétition entre les trois modèles uni-variés (VAR, ARIMA, MCE) destinés à prédire la grandeur exogène "Valeur ajoutée brute du secteur de la construction en France" ... à partir de ses valeurs passées. Pour ce faire. Je souhaite prendre comme critère la précision (la somme des erreurs la plus réduite ndlr) des trois fits que j'ai effectués avec ces modèles axés sur le passé.

Je souhaite m'inspirer de la méthodologie de Box et Jenkins (qui sont les auteurs les plus célèbres du champ d'analyse des séries temporelles avec leur méthode des années 70 si populaire qui sert à fitter un ARIMA sur une courbe auto-corrélée saisonalisée et non-stationnaire).

https://en.wikipedia.org/wiki/Box%E [...] g_approach

Nota : Pourquoi ne pas prendre un ARCH ? Les modèles ARCH sont spécialisés dans le fit de séries hétéroskedastiques ... c'est à dire (techniquement) des séries dont les variabilités changent drastiquement au cours du temps ... c'est à dire que dans la réalité ils ont été conçus pr des séries financières.

Précisions : ces dernières sont volatiles pour des raisons à la fois irrationnelles (micro-paniques généralisées type Brexit) et rationnelles (les résultats des grands groupes boursiers sont transmis annuellement par les DAF de ces grosses entités ce qui fait que leurs cours boursiers sont régulièrement victimes de brusques variations).

/Nota.

Or moi j'utilise des VAR, MCE et ARIMA car ce sont des grandeurs économiques. C'est à dire qu'elles sont ancrées dans la réalité d'une société qui change, certes, mais de façon lente.

Maintenant. J'ai une question très précise. La méthode de Box et Jenkins est associée à la sélection des paramètres (p,d,q) d'une seul instrument ARIMA (séries non-stationaires) avec le AIC et le BIC.

https://fr.wikipedia.org/wiki/Crit% [...] d%27Akaike
https://fr.wikipedia.org/wiki/Crit% [...] %C3%A9sien

Je souhaite reprendre ce fonctionnement en mesurant la performance avec des formules (dans l'idée c'est proche d'un R² ou de AICs ou BICs) dites :

- RMSE (le plus populaire et fréquemment utilisé)
- MdRAE (le plus efficace sur des petits échantillons)
- MdAPE (le plus efficace sur des grands échantillons)

http://faculty.weatherhead.case.ed [...] asures.pdf

Mais sur mes trois instruments différents (MCE, VAR, ARIMA). Mais d'après ma lecture de ce post ...

http://forums.cirad.fr/logiciel-R/ [...] f=11&t=221 (post 11 sept 2006 15:25)

... Et des sources sur le forum francophone du CIRAD : *ils* utilisent tous ces critères AIC pour la comparaison de modèles non-nichés de régressions.

https://perso.univ-rennes1.fr/berna [...] %A9s%22%22

Dans leur langage ... "les instruments type AIC et BIC sont limités à l'analyse d'une même distribution". Par extension je pense que c'est le cas pour mes trois formules (RMSE, PdRAE, MdAPE) ... mais dans les articles que j'ai lus les textes répètent cette phrase ("exclusivement efficace pour une même distribution" ) sans que je ne puisse en percer le sens exact :

=> Quand je lis que ces outils (RMSE, MdRAE, MdAPE) ne servent que de comparaison pour l'analyse "d'une même distribution " ... ils désignent un type de distribution ?! (Gauss, Khi² ...) ou alors ils désignent exactement la série analysée ?! (ici la grandeur "valeur ajoutée de la construction en France " ) ou alors ils parlent de la distribution probabiliste utilisée par l'instrument (VAR, ARIMA, MCE) pour calculer les paramètres ?!

Indice : vu que ce sont des formules extrêmement intelligentes assises sur l'idée de la somme des erreurs entre la grandeur et les points de la courbe construite par l'instrument ... je pense que ça ne change rien à rien qu'on change d'instrument vu que c'est bien l'équation de la courbe qui est visée et que par conséquent je peux comparer les résultats ... mais au vu de la gravité potentielle de cette erreur de raisonnement je souhaite vérifier.

(avant que les grands décideurs de l'hexagone ne réalisent que je suis une sorte de tanche en stats [:le petit tiburce:1] )

Message cité 1 fois
Message édité par lefilpourpre le 21-09-2016 à 19:35:02

lefilpourpre

Michel

Rasthor a écrit :

Dites-voir, j'aurais besoin d'une opinion.

1) Qu'est-ce que vous pensez ?
2) C'est erroné de faire comme ca ?
3) Si c'est juste, ca porte un nom cette procédure ?
4) Y'aurait une autre facon plus elegante de faire ca ?

1) je pense qu'il existe forcément une procédure documentée pour un machin aussi peu complexe
2) j'ai pas tout pigé mais je pense pas, c'est juste que ça fait des noeuds dans la tête pour rien
3) j'invente jamais rien en stats, je cherche des protocoles existants puis je planche dessus
4) forcément, fais des recherches

Message cité 1 fois
Message édité par lefilpourpre le 22-09-2016 à 15:05:20

Kaffeine

Noisette

Pour le mec avec la table de contingence : https://www.researchgate.net/post/A [...] _2_groups2

Message cité 1 fois

Kaffeine

Noisette

Pour les mecs avec les différents type de modélisation et comparaison de la performance entre les modèles: les méthodes ont la même fonction de vraisemblance? si non => négatif

Message édité par Kaffeine le 22-09-2016 à 15:24:27

HeisenberG75

www.savewalterwhite.com

lefilpourpre a écrit :

#compétition entre différents modèles

http://media.rtl.fr/online/image/2 [...] s-2012.jpg

Alors ... j'ai une question assez pointue (je m'adresse en particulier à Magic Panda, Heisenberg et CobbDouglas) à propos des instruments de mesure de la performance d'un modèle prédictif.

https://en.wikipedia.org/wiki/Box%E [...] g_approach

/Nota.

Or moi j'utilise des VAR, MCE et ARIMA car ce sont des grandeurs économiques. C'est à dire qu'elles sont ancrées dans la réalité d'une société qui change, certes, mais de façon lente.

https://fr.wikipedia.org/wiki/Crit% [...] d%27Akaike
https://fr.wikipedia.org/wiki/Crit% [...] %C3%A9sien

Je souhaite reprendre ce fonctionnement en mesurant la performance avec des formules (dans l'idée c'est proche d'un R² ou de AICs ou BICs) dites :

- RMSE (le plus populaire et fréquemment utilisé)
- MdRAE (le plus efficace sur des petits échantillons)
- MdAPE (le plus efficace sur des grands échantillons)

http://faculty.weatherhead.case.ed [...] asures.pdf

Mais sur mes trois instruments différents (MCE, VAR, ARIMA). Mais d'après ma lecture de ce post ...

http://forums.cirad.fr/logiciel-R/ [...] f=11&t=221 (post 11 sept 2006 15:25)

... Et des sources sur le forum francophone du CIRAD : *ils* utilisent tous ces critères AIC pour la comparaison de modèles non-nichés de régressions.

https://perso.univ-rennes1.fr/berna [...] %A9s%22%22

(avant que les grands décideurs de l'hexagone ne réalisent que je suis une sorte de tanche en stats [:le petit tiburce:1] )

:jap:

Tu connais un moyen graphique de comparer de modèles ? (Que ce soit chacun sur son graph ou les 3 modèles sur le même graph)
Un truc style courbe ROC (modèles de classification) adapté aux series temp ?

Car la je vais sortir pour chacun de mes modèles le rmse, mape, mae.. et prendre le celui qui est le plus performant mais un graphique peut-être sympa aussi

Ps : souvent utilisé aussi il y a le coefficient de theil pour mesurer la qualité de prédiction

Publicité

lefilpourpre

Michel

Merci pr les infos [:underlined]

Message édité par lefilpourpre le 22-09-2016 à 15:46:39

Rasthor

lefilpourpre a écrit :

Tu penses bien que j'ai fait des recherches, mais rien de trouve de concret pour le moment. Peut-etre que je n'utilise pas les bons mot-cles. C'est pour ca que j'ai ecrit ici, dans l'espoir que quelqu'un aurait deja rencontre ce genre de problème.

Kaffeine a écrit :

Pour le mec avec la table de contingence : https://www.researchgate.net/post/A [...] _2_groups2

Merci. Mais j'ai l'impression que les tests qu'ils proposent ne donne qu'une unique p-value pour l'ensemble du tableau. Or je voudrais une p-value par cellule.

Je continue de chercher et si je trouve quelque chose, je vous fait signe. :hello:

lefilpourpre

Michel

R²et RMSE

Est-ce forcément utile de tenter de sur-passer la modélisation de la directrice des études de l'INSEE alors qu'elle a un R² à 0,77 (ça je peux l'augmenter je pense) mais surtout un RMSE à 0,7%.

R² : c'est la quantité de variation de la série économique expliquée (FCBF-Construction) par les séries choisies (taux immobiliers, taux de chômage ...)

-> ça répond à la question : ais-je bien intégré toutes les données du problème ou dois-je re-collecter de l'information pour la mettre dans ma machine.

RMSE : c'est la quantité d'erreurs entre l'équation déterminée grâce à la méthode (MCE) et les séries choisies (voir au dessus) et les points de données issus de la réalité.

-> mon équation (une virtualité du réel qui a l'avantage d'être mis en équation et de pouvoir être prolongée dans le futur) est-elle bien au contact du réel ?

En d'autres termes : est-ce réellement utile de tenter de surpasser un RMSE à 0,7% ? N'est-ce pas déjà infinitésimal ? entre quelle valeur et quelle valeur vos RMSE varient-t-ils généralement ?

Message cité 1 fois
Message édité par lefilpourpre le 23-09-2016 à 12:39:25

Profil supprimé

drapal

Profil supprimé

Existe-t-il des MOO francophones concernant une remise à niveau en maths, stats proba niveau terminale ou L2 en sciences eco svp?

Message cité 1 fois

radioactif

Mighty mighty man

T'as ce truc qui s'adresse à des biologistes : https://perso.univ-rennes1.fr/denis [...] PHOBES.pdf
C'est en langue très vernaculaire mais ça fait le taf pour qui ne veut pas trop creuser l'aspect probas derrière

Message cité 1 fois

---------------
"La physique, c'est les mathématiques du branleur curieux"© | "Les gens ont tellement peur d'avoir un futur pourri qu'ils se font facilement a l'idee d'avoir un present de merde, en somme"©

Profil supprimé

radioactif a écrit :

140 pages

Merci mais c'est également utilisé en finance?

Rasthor

Bonjour,

J'ai une petite question:

J'ai une matrice de 500 observations (lignes) et 40 features (colonnes).

Je n'ai aucune idée si mes observations peuvent se grouper ou pas.

J'ai fait un clustering, d'abord en estimant le nombre de clusters avec la methode Affinity Propagation:
http://scikit-learn.org/stable/aut [...] agation-py

J'obtiens 20 clusters, que je passe ensuite dans K-means.

(J'ai aussi manuellement réduit a 3, 5 ou 10, ca a l'air de bien marcher).

J'aimerais maintenant savoir si parmi mes 40 features, il y en a qui sont redondantes. Je pensais utiliser un PCA, mais je n'ai pas de groupes associes a mes observations.
Quelle méthode je pourrais utiliser pour réduire le nombre de colonnes de mon tableau ?

Message édité par Rasthor le 06-12-2016 à 20:23:49

Darmstadtium

Pipoteur grotesque

PCA est justement un algorithme de réduction de dimension non supervisé, donc que tu n'aies pas de groupe n'est pas un problème (ça le serait pour LDA par contre).

Commencer par PCA et voir la part de variance expliquée par chaque composante principale est une bonne idée. Si tes observations sont significativement corrompues par du bruit/des outliers, ça va être un soucis par contre et il faudra utiliser des techniques plus robustes. Attention après à ne pas confondre les composantes principales que PCA te donne avec tes features originales.

Un truc que je fais parfois dans ton cas c'est représenter les données en 2 ou 3D via PCA et regarder un peu si des clusters évidents apparaissent. Mais attention ce n'est pas fiable, des données bien séparées en dimension n peuvent se recouvrir beaucoup en dimension inférieure.

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

fusion_sadam

Et pour la PCA attention, elle est très sensible à la grandeur des données, il faut centrer/réduire tes données avant.
Il n'est pas non plus nécessaire de faire le clustering sur tout les axes factoriels, mais seulement par exemple ceux qui représentent 80~90% de l'info.

---------------
On sait pas trop quoi dire dans des circonstances pareilles...

Rasthor

Bonjour,

J'ai une petite question.

J'utilise une methode de normalisation pour voir si mes donnees sont enrichies/depletees quelques part:

Imaginons le jeu de donne suivant (columns A/B/C and rows 1/2/3):

A B C
1 1 2 3
2 4 5 6
3 7 8 9

1) J'obtiens la somme par colum:

A B C
12 15 18

Je divise les valeurs de chaque colonne par la somme obtenue:

A B C
1 0.08 0.13 0.17
2 0.33 0.33 0.33
3 0.58 0.53 0.50

La somme de chaque colonne étant maintenant de 1.

J'obtiens ensuite la moyenne de chaque ligne:

1 0.13
2 0.33
3 0.54

Et je divise les valeurs de chaque ligne par la moyenne obtenue:
0.65 1.04 1.30
1.00 1.00 1.00
1.08 0.99 0.93

A B C
1 0.65 1.04 1.30
2 1.00 1.00 1.00
3 1.08 0.99 0.93

La moyenne globale de la matrix étant maintenant de 1.

On peut voir directement que pour la colonne C, elle est enrichie dans la ligne 1 par rapport aux autres colonnes.

1) Un avis sur cette façon de faire ?
2) Ca a un nom précis ? Je n'arrive pas a trouver ca, pourtant je suis sur que c'est quelque chose de basique.

Message édité par Rasthor le 05-01-2017 à 12:06:33

rd350

Un khi2 n'est pas voisin de cette chose ?

Message cité 1 fois

rd350

(sur table de contingence)

Message cité 1 fois

Rasthor

rd350 a écrit :

Un khi2 n'est pas voisin de cette chose ?

rd350 a écrit :

(sur table de contingence)

Oui, ça rapproche très fortement ! Merci! [:cerveau charlest]

Si ma matrix de départ est "mat_obs", ca donne:

g, p, dof, mat_exp = scipy.stats.chi2_contingency(mat_obs)
result = mat_obs/mat_exp

Deux lignes de code au lieu de quatre.

Bébé Yoda

Rasthor a écrit :

Comment débuter dans la Data Science ?

http://jereze.com/fr/blog/debuter-data-science

Becoming a Data Scientist – Curriculum via Metromap

http://reho.st/self/560a24dcf25f71e1b2de92daa92758d12a3fbb6c.png

Hello, je profite de drap ce topic en citant ce post.
Pour ceux qui ne m'ont pas vu sur le topic ML/Data, je suis en reconversion vers la data (après un doctorat en physique, puis une dizaine d'années de boulot en labo puis R&D industrie derrière).
Bref, je vois cette map très intéressante mais un peu flippante. J'ai pas mal bossé et appris beaucoup de choses mais il me manque une grosse partie des points ... j'espère que c'est à titre indicatif et qu'on peut piocher selon les postes visés, sinon je suis pas près de changer moi

Message cité 1 fois

Rasthor

Bébé Yoda a écrit :

Je te conseillerais de regarder les annonces pour des postes, tu verras ce qu'ils demandent.

Bébé Yoda

Oui ça me semble plus logique. Je suis sur secteur Grenoblois, le seul soucis c'est que ça manque d'offres en ce moment, mais je ne suis pas pressé pendant ce temps je continue à me former tranquille

Message cité 2 fois

Rasthor

Bébé Yoda a écrit :

Regarde au niveau national, voir même international (UK). Tu trouveras bien plus d'annonce, et ca permettra de mieux t'orienter sur les connaissances requises.

Message édité par Rasthor le 01-05-2017 à 11:28:08

Bébé Yoda

Salut les statisticiens,

Je cherchais un restaurant hier midi sur tripadvisor, les deux plus proches de moi étaient notés : 4/5 (21 avis) et 3.5/5 (82 avis). Comme je suis en pleine période de révisions, je me suis demandé quel test me mettrait de vraiment trancher entre les deux.
J'imagine qu'un chi² serait approprié, mais comment vous y prendriez vous ?

Supposons que je puisse collecter toutes les notes, est-ce que je dois créer un array comptabilisant le nombre de notes pour chaque valeur possible ? Une autre technique ?
Sorti des exemples de base, j'ai du mal à voir comment appliquer ce que j'ai appris sur des cas réels (outre que mon idée est peut-être un peu con).

Merci pour vos avis

Message cité 1 fois

Rasthor

Bébé Yoda a écrit :

Non, je ne ferais pas un chi2. Le Chi2 est utilise pour comparer des valeurs observées, donc des comptages. Ici tu as deux populations de notes (allant de 0 a 5) avec deux échantillons de taille différentes. Tu veux essayer de comparer des moyennes, donc T-test ou Wilcoxon.

Un problème dans ton cas est que tu n'as que la moyenne. Tu ne connais pas la variance (dispersion) et encore moins si les distributions sont normales ou pas, ou pire unimodale ou bimodales. Par exemple, tu peux avoir beaucoup de notes autour de 3.5 (unimodale), ou alors beaucoup de notes autour de 2 et beaucoup autour de 5 (bimodale).

Une page bien foutue:
https://www.mathsisfun.com/data/sta [...] ution.html

Les distributions de tes échantillons vont te dire quel test utiliser. Cf plus bas.

Citation :

Supposons que je puisse collecter toutes les notes, est-ce que je dois créer un array comptabilisant le nombre de notes pour chaque valeur possible ? Une autre technique ?
Sorti des exemples de base, j'ai du mal à voir comment appliquer ce que j'ai appris sur des cas réels (outre que mon idée est peut-être un peu con).

Donc si tu arrives a collecter les notes réelles, un Student's t-test sera le plus approprie si les distributions sont normales:
https://docs.scipy.org/doc/scipy/re [...] stats.html

Et sinon, il faudra utiliser un test non-parametrique, comme le Wilcoxon rank-sum:
https://docs.scipy.org/doc/scipy-0. [...] ksums.html

Ou alors le Mann-Whitney rank test:
https://docs.scipy.org/doc/scipy-0. [...] tneyu.html

Un exemple, si on admet que les distributions de tes échantillons sont normales:

import scipy
import scipy.stats
import numpy as np

# Les donnees pour le 1er resto et le 2 eme resto:

mean1, mean2 = 4, 3.5
nobs1, nobs2 = 21, 82

# On peut recalculer les deviations standards, si on part du principe que la distribution est normale ((probablement faux par rapport aux donnees reelles):
std1 = np.sqrt(abs((mean1*(1-mean1))/nobs1))
std2 = np.sqrt(abs((mean2*(1-mean2))/nobs2))

# On peut maintenant utiliser le Welch’s t-test, en ne donnant que les statistiques:
scipy.stats.ttest_ind_from_stats(mean1, std1, nobs1, mean2, std2, nobs2, equal_var=False)

Maintenant, si tu peux avoir les valeures reelles, tu vas creer deux arrays pour chaque echantillons, un de taille 21 et l'autre de taille 82. Et utiliser ces deux pour les tests.
Comme on n'a pas les vraies valeurs, on peut essayer de les re-creer en admettant que les standard deviations sont juste:

array1 = np.random.normal(mean1, std1, nobs1)
abs(mean1 - np.mean(array1)) < 0.01
abs(std1 - np.std(array1, ddof=1)) < 0.01

array2 = np.random.normal(mean2, std2, nobs2)
abs(mean2 - np.mean(array2)) < 0.01
abs(std2 - np.std(array2, ddof=1)) < 0.01

scipy.stats.ranksums(array1, array2)

scipy.stats.mannwhitneyu(array1, array2)

Message édité par Rasthor le 01-05-2017 à 16:02:23

cassiopella

Pourquoi il n'y plus de lien vers les masters?

Bébé Yoda a écrit :

Si si si, il y a plein d'offre. Le 11/05 il y a le forum docteurs où la majorité d'offre est data scientist.

Citation :

=> la programmation en R (le langage gratuit le plus populaire et surtout le plus puissant actuellement !)

Non, mais quelle blague! :lol: Dans 99% des cas ce n'est pas la programmation. Ne mettez jamais "je sais programmer en R", cela signifie que vous savez pas programmer. Un peu comme "la régression multilinéaire". Ce n'est pas faux, mais cela montre que vous connaissez tellement peu le sujet et ne comprenez pas que summary(base$toto) n'est pas une programmation et que ce n'est pas la peine mettre "multilinéaire".

Message cité 1 fois

Bébé Yoda

cassiopella a écrit :

Pourquoi il n'y plus de lien vers les masters?

cassiopella a écrit :

Si si si, il y a plein d'offre. Le 11/05 il y a le forum docteurs où la majorité d'offre est data scientist.

Citation :

=> la programmation en R (le langage gratuit le plus populaire et surtout le plus puissant actuellement !) Non, mais quelle blague! :lol: Dans 99% des cas ce n'est pas la programmation. Ne mettez jamais "je sais programmer en R", cela signifie que vous savez pas programmer. Un peu comme "la régression multilinéaire". Ce n'est pas faux, mais cela montre que vous connaissez tellement peu le sujet et ne comprenez pas que summary(base$toto) n'est pas une programmation et que ce n'est pas la peine mettre "multilinéaire".

Je suppose que c'est ce forum là ?
http://www.pole-emploi.fr/region/a [...] ?id=451370

Je pense que je vais devoir y aller

Par contre, je ne comprends pas pourquoi il ne faut pas dire qu'on sait programmer dans un langage, j'ai pas bien saisi ton propos.

Message cité 2 fois

Rasthor

Bébé Yoda a écrit :

Par contre, je ne comprends pas pourquoi il ne faut pas dire qu'on sait programmer dans un langage, j'ai pas bien saisi ton propos.

C'est du pignolage en fait.

R a toute les fonctions d'un vrai langage de programmation. Mais il est beaucoup plus limite par rapport a un langage de scripting comme Python, Perl ou Ruby. Et la syntaxe R est horrible quand meme.

Maintenant, j'essaie de faire toutes mes stats dans Python. Le truc est d'ouvrir un notebook Jupyter et de charger la bibilotheque Pandas, qui permet l’accès aux dataframes comme dans R. Tres puissant manipuler des donnes, avec des fonctions comme merge, join, append, etc, etc... Apres avec Scipy, on peut faire plein de test statistique. Et Scikit-learn s'il faut du machine-learning. Et pour les graphiques, Matplotlib avec la surcouche Seaborn.

Message cité 1 fois

cassiopella

Bébé Yoda a écrit :

Citation :

Je suppose que c'est ce forum là ?
http://www.pole-emploi.fr/region/a [...] ?id=451370

Je pense que je vais devoir y aller

Par contre, je ne comprends pas pourquoi il ne faut pas dire qu'on sait programmer dans un langage, j'ai pas bien saisi ton propos.

Parce que dans les 99 % des cas il s'agit d'utiliser les commandes déjà créés au lieu de les coder. Et c'est une grosse différence et pas vraiment la programmation. Cela ne montre pas que tu sait ou non coder et écrire un programme. Alors que pour certains postes il est vraiment nécessaire de savoir le faire.

Message cité 1 fois
Message édité par cassiopella le 01-05-2017 à 21:08:52

Bébé Yoda

cassiopella a écrit :

OK je vois, il y a en effet une vraie différence

Message édité par Bébé Yoda le 01-05-2017 à 23:16:44

Bébé Yoda

Rasthor a écrit :

A vrai dire je n'ai jamais touché à R, j'ai commencé avec python il y a 2 ans pour mes calculs scientifiques et ça me convient bien.
J'utilise les mêmes bibliothèques, surtout Pandas et numpy (j'avais fait presque 15 ans de matlab avant, les similitudes étaient les bienvenues pour démarrer).
Le seul problème avec Pandas et numpy, c'est que je m'y suis tellement habitué que je ne sais plus trop manipuler les structures basiques de python

Bébé Yoda

Bon, j'ai fait mon petit exercice, j'ai collecté les notes sur tripadvisor qui me donne la distribution suivante :

Les moyennes sont 4 et 3.4
Median : 4 et 4
Std : 1.15 et 1.47

Rien qu'avec ça, je peux dire que le premier est meilleur que le second.
J'ai lancé les tests dont tu m'as parlé :

Code :

sp.stats.mannwhitneyu(notes_1,notes_2)
>> MannwhitneyuResult(statistic=648.0, pvalue=0.048715948349914266)
sp.stats.ranksums(notes_1,notes_2)
>> RanksumsResult(statistic=1.6067086248109883, pvalue=0.10811830074643212)

Pas sûr de savoir comment interpréter ça d'ailleurs.

Je me demande si je suis pas en train de m’emmêler les pinceaux. Mon problème est peut-être de savoir si j'ai assez de notes sur le resto n°1 (seulement 21) pour vraiment affirmer qu'il est meilleur que le n°2.

Rasthor

Il faut utiliser le two-sided test en premier, qui est le Wilcoxon rank-sum (ranksums):
http://stats.idre.ucla.edu/other/m [...] led-tests/

=> tu obtiens une p-value de 0.10811, qui supérieur au seuil habituel de 0.05.
=> Conclusion: tu observes bien une différences entre les notes, mais tu ne peux pas rejeter l’hypothèse nulle H0 qui est que les notes soient identiques.

Message cité 1 fois

Oceanborn

[:lardoncru:1]
Je connaissais pas ce topic. :love:

Bébé Yoda

Rasthor a écrit :

C'est sympa de m'aider

Désolé, c'est encore très confus dans mon esprit.
Donc si je comprends bien, la conclusion du test (p=0.108) me dit que je ne peux pas dire lequel est le meilleur ?

Mon avis, hors analyse poussée, serait de dire qu'il y a trop de 1 pour que le restaurant soit vraiment bon, et j'aurais tendance à l'éviter.

Du coup, la question suivante est pourquoi je ne peux pas le dire ? Est-ce à cause :
- D'un échantillon trop faible
- D'un écart type pas assez différent d'un jeu de notes à l'autre
- De notes finalement assez proches et donc c'est logique.
- Autre chose ?

Message cité 2 fois

Rasthor

Bébé Yoda a écrit :

C'est sympa de m'aider

Désolé, c'est encore très confus dans mon esprit.
Donc si je comprends bien, la conclusion du test (p=0.108) me dit que je ne peux pas dire lequel est le meilleur ?

C'est bien ca!

Ton test de comparaison entre deux moyennes, que ce soit le paramétrique Student's test, le Student's test paired ou le non-paramétrique Wilcoxon, cherche a dire si les distributions de tes deux échantillons viennent de la source (donc même moyenne, écart-type, etc, etc...).

Hypothèse nulle H0: les deux échantillons viennent de la meme source d'echantillonage.
Hypothèse alternative H1: les deux échantillons ne viennent pas de la même source d'echantillonage, et sont donc different.

Comme ta p-value est de 0.10 (et non pas < 0.05), on ne peut pas rejeter l’hypothèse nulle, et on doit admettre qu'ils sont statistiquement similaires.

http://www.cons-dev.org/elearning/stat/St2a.html

Citation :

Mon avis, hors analyse poussée, serait de dire qu'il y a trop de 1 pour que le restaurant soit vraiment bon, et j'aurais tendance à l'éviter.

C'est une facon de voir les choses. Mais il y aussi beaucoup de gens très satisfait! Est-ce un bien un biais?

Citation :

Du coup, la question suivante est pourquoi je ne peux pas le dire ? Est-ce à cause :
- D'un échantillon trop faible
- D'un écart type pas assez différent d'un jeu de notes à l'autre
- De notes finalement assez proches et donc c'est logique.
- Autre chose ?

Des notes assez proches je dirais, et l'ecart-type entre notes pas assez different entre les deux restaurants.

Message édité par Rasthor le 02-05-2017 à 12:36:29

Publicité

Page : 1 2 3 4 5 6 7 8

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

[Topic Unique] Statistiques descriptives, inférentielles & dataviz

Sujets relatifs
[Topic Unique] Licence LEA (Langues Etrangères Appliquées)	[ Topic unique ] Stage à l'étranger
[Topic unique] Bac 2k13 - 2k14 ===	[Topic Unique] Concours A/A+ (Rejoignez la clownance !)
Master économétrie et statistiques appliquées	[Topic Unique] Magistère Banque Finance - Université Panthéon-Assas
[Topic Unique] Master Économétrie et Statistiques Appliquées - Orléans	[Topic Unique]Bloquer son année universitaire
[Topic Unique] ROUEN BUSINESS SCHOOL MASTERE Spécialisé FINANCE
Plus de sujets relatifs à : [Topic Unique] Statistiques descriptives, inférentielles & dataviz

Page générée en 0.086 secondes