Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1446 connectés 

  FORUM HardWare.fr
  Programmation
  Divers

  Récupérer du texte d'une page web

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Récupérer du texte d'une page web

n°570730
backdafuck​up
Back to da old skool
Posté le 19-11-2003 à 14:40:33  profilanswer
 

Depuis ce matin, je cherche un peu dans le noir, car je ne sais pas vraiment quoi chercher pour résoudre mon problème.
 
Un client souhaiterait avoir une base de données de tous les kinés de France (répertoriés sur les pages jaunes www.pagesjaunes.fr).
 
Le but serait de pouvoir tirer ensuite des étiquettes (j'imagine sous word), le tout de manière automatisée.
Bien sur, j'aurais pu noter chaque kiné à la main depuis le site des pages jaunes, mais juste pour paris, il y a environ 2000 réponses, donc ca fait un peu long, et je sais qu'il existe d'autres moyens.
 
Ce que pas mal d'entre vous ont fait pour les bots m'interesse. Le coup de détecter le split se rapproche un peu de mon problème. Je lance une recherche sur le site pour chaque ville, et ca remplit la base de données.
 
Les questions que je me pose c'est : quel langage est le mieux adapté pour faire ca (à votre avis) ? Moi j'ai pensé à faire ca en VB et avec acess(je sais je sais...) ou en php avec mysql. De deux, vers quoi dois-je orienter mes recherches ?
 
Merci :)

mood
Publicité
Posté le 19-11-2003 à 14:40:33  profilanswer
 

n°570744
backdafuck​up
Back to da old skool
Posté le 19-11-2003 à 14:51:59  profilanswer
 

zion a écrit :

A priori je penche pour Delphi évidemment, j'ai fait un robot comme ca y a 3 ans pour les pages d'or (un équivalent belge) et en un rien de temps le mec avait son jouet en main...
 
Mais bon c'est possible dans d'autres trucs évidemment, mais Delphi c'est top :whistle:


C'est gentil, mais je dois livrer le truc sous deux semaines (dont un premier exemplaire dans deux jours juste pour les kinés de paris), et j'ai jamais fait de delphi (c'est comme pascal c'est ca ?). Donc j'ai pas trop le temps d'apprendre.
J'ai fait un peu de pascal, mais ya deux ans à l'iut, donc bon...

n°570748
MagicBuzz
Posté le 19-11-2003 à 14:53:41  profilanswer
 

IL EST ABSOLUEMENT INTERDIT DE TRAITER DE FACON AUTOMATISEE DES INFORMATIONS PROVENANT DES ANNUAIRES DE FRANCE TELECOM.
 
Ca doit faire à peut près 4 ou 5 entrées dans les textes de lois à propos de la protection des données personnelles. Chaque entrée conduisant à des amandes de 5 MF et 5 ans d'emprisonement. Après, si t'as toujours envie de faire ça, tu fais comme tu veux, mais faudra pas venir te plaindre si tu bouffe des oranges pendant 20 ans.

n°570749
backdafuck​up
Back to da old skool
Posté le 19-11-2003 à 14:57:04  profilanswer
 

Ah... J'y avais pas pensé. Pourtant ca parait logique. Etant donné que le site offre un service gratuit, je pensais pas qu'il était interdit d'utiliser ces données...
 
Je peux faire comment ?

n°570756
backdafuck​up
Back to da old skool
Posté le 19-11-2003 à 15:01:32  profilanswer
 

zion a écrit :

Les acheter moyennant beaucoup d'argent à des firmes privées qui les ont collectées tout aussi illégalement la plupart du temps
 
[:neowen]


 
Ben justement, le truc c'est que ce kiné voulait éviter de donner des sous à france télécom, préférant me les donner à moi...
Puis, j'aurais bien aimé lui rendre ce service...

n°570757
bobuse
Posté le 19-11-2003 à 15:02:27  profilanswer
 

c'est con cette loi ! 'fin pas forcément, mais le contexte donné ...
 
sinon, avec bash, wget, lynx et awk, ca doit se faire en pas très longtemps :D

n°570763
backdafuck​up
Back to da old skool
Posté le 19-11-2003 à 15:05:25  profilanswer
 

bobuse a écrit :

c'est con cette loi ! 'fin pas forcément, mais le contexte donné ...
 
sinon, avec bash, wget, lynx et awk, ca doit se faire en pas très longtemps :D


ben je connais pas tout ca moi...  
C'est vrai que c'est un peu con de livrer des données gratuites mais d'interdire l'automatisation de ce traitement.... C'est tout à fait illogique, mais bon, vive la france...
php ou vb ca peut pas marcher ???

n°570773
MagicBuzz
Posté le 19-11-2003 à 15:13:19  profilanswer
 

backdafuckup a écrit :

Ah... J'y avais pas pensé. Pourtant ca parait logique. Etant donné que le site offre un service gratuit, je pensais pas qu'il était interdit d'utiliser ces données...
 
Je peux faire comment ?


A ton avis, pourquoi le 3611 (minitel) deviens extrêment cher au bout de 3 minutes ? Simplement pour empêcher les entreprises malveillantes de récupérer les informations depuis ce service gratuit. Sur internet c'est pas possible, mais c'est la même lois qui s'applique ;)

n°570781
MagicBuzz
Posté le 19-11-2003 à 15:17:27  profilanswer
 

backdafuckup a écrit :


ben je connais pas tout ca moi...  
C'est vrai que c'est un peu con de livrer des données gratuites mais d'interdire l'automatisation de ce traitement.... C'est tout à fait illogique, mais bon, vive la france...
php ou vb ca peut pas marcher ???


Si, c'est tout à fait logique.
C'est un service offert aux particuliers, pas aux entreprises. Et heureusement que c'est interdit (et c'est tout aussi interdit dans tous les pays du monde) parceque sinon, y'a plus aucune confidentialité des données, du coup tout le monde passe en liste reouge, et super, plus personne peut appeler personne.
 
Et faut pas jouer au con avec les annuaires comme ça, parceque FT use du droit fondamental du mensonge en diffusant des données erronées dans leurs annuaires (des personnes avec des adresses et numéros fictifs) qui leur permettent de retrouver assez aisément les personnes qui abusent des infos récupérées de cette façon. Un call-center par exemple, qui va faire 500 appels à l'heure, il se fait repérer tout de suite.
 
Sinon, techniquement parlant tu peux tout simplement utiliser une macro Excel très simple à programmer) et comme ça tu lui met les données directement dans excel, il sera super content. Par contre, fait-toi payer en liquide, laisse pas ton nom dans le code, et coupe tous les liens avec ce gars si tu veux pas risquer des ennuis.
 
Parceque pour info, c'est pas du piratage de "copie sans authorisation" comme pour Windows, mais il s'agit de vol de données personnelles et de consitution de fichier individuel sans déclaration à la CNIL, plus ce que j'ai indiqué plus haut. Et clairement, si un jour FT ou la CNIL tombe sur le gars, il est pas près de s'en sortir, ça va pas se limiter à une amende.
 
PS: et ça peut très bien être un kiné qui fasse la démarche de porter plainte pour atteinte à la vie privée et acquisition illégales de données personnelles.


Message édité par MagicBuzz le 19-11-2003 à 15:22:29
n°570900
backdafuck​up
Back to da old skool
Posté le 19-11-2003 à 16:59:18  profilanswer
 

MagicBuzz a écrit :


Si, c'est tout à fait logique.
C'est un service offert aux particuliers, pas aux entreprises. Et heureusement que c'est interdit (et c'est tout aussi interdit dans tous les pays du monde) parceque sinon, y'a plus aucune confidentialité des données, du coup tout le monde passe en liste reouge, et super, plus personne peut appeler personne.
 
Et faut pas jouer au con avec les annuaires comme ça, parceque FT use du droit fondamental du mensonge en diffusant des données erronées dans leurs annuaires (des personnes avec des adresses et numéros fictifs) qui leur permettent de retrouver assez aisément les personnes qui abusent des infos récupérées de cette façon. Un call-center par exemple, qui va faire 500 appels à l'heure, il se fait repérer tout de suite.
 
Sinon, techniquement parlant tu peux tout simplement utiliser une macro Excel très simple à programmer) et comme ça tu lui met les données directement dans excel, il sera super content. Par contre, fait-toi payer en liquide, laisse pas ton nom dans le code, et coupe tous les liens avec ce gars si tu veux pas risquer des ennuis.
 
Parceque pour info, c'est pas du piratage de "copie sans authorisation" comme pour Windows, mais il s'agit de vol de données personnelles et de consitution de fichier individuel sans déclaration à la CNIL, plus ce que j'ai indiqué plus haut. Et clairement, si un jour FT ou la CNIL tombe sur le gars, il est pas près de s'en sortir, ça va pas se limiter à une amende.
 
PS: et ça peut très bien être un kiné qui fasse la démarche de porter plainte pour atteinte à la vie privée et acquisition illégales de données personnelles.


 
 
Merci pour ton explication mon cher magic buzz, j'avais pas envisagé les choses comme ca (je ne vois pas forcément le mal partout...).
Ben je vais appeler mon client pour lui dire que c'est pas possible...
Merci à tout le monde...
 
Ceci dit, quel est la méthode qu'ont utilisé certains de ce forum pour programmer les bots (récupérations de texte dans les pages de hfr) ? J'ai vu les langages utilisés : asm pour harko(...), java pour benou, et après les autres je sais pas...
C'est possible dans tout langage non ?

mood
Publicité
Posté le 19-11-2003 à 16:59:18  profilanswer
 

n°571064
MagicBuzz
Posté le 19-11-2003 à 20:29:40  profilanswer
 

HFR n'est pas protégé par cette loi, d'autant plus qu'il n'est pas cencé diffuser la moindre information personnelle, ou alors c'est avec le consentement de la personne concernée.

n°571065
MagicBuzz
Posté le 19-11-2003 à 20:30:58  profilanswer
 

Par exemple, si tu postes ton numéro de téléhone, c'est toi qui l'a fait. Donc si qq1 récupère ce numéro, bah dans le cul la balayette, tu va être emmerdé pendant 6 mois.
 
Par contre, si tu postes le numéro de ton ex en demandant aux formeurs de la faire chier, alors elle peut te foutre au trou pour avoir diffusé des données personnelles.
 
Seuls les noms de marques et nom publics (Sarkozy par exemple) sont authorisés. Après, pour la moindre information (y compris un simple nom+prénom permettant d'identifier la personne) sont rigoureusement interdits sans authorisation.


Message édité par MagicBuzz le 19-11-2003 à 20:32:06
n°571066
Taz
bisounours-codeur
Posté le 19-11-2003 à 20:34:01  profilanswer
 

popen('lynx -dump www.perdu.com') :whistle:


Message édité par Taz le 19-11-2003 à 20:34:11
n°571863
bobuse
Posté le 20-11-2003 à 18:00:44  profilanswer
 

backdafuckup > wget, lynx et awk sont des programmes GNU très faciles à scripter en bash (interpréteur de commande GNU.
mais bon, si tu connais pas ...

n°572008
Harkonnen
Modérateur
Un modo pour les bannir tous
Posté le 20-11-2003 à 21:32:13  profilanswer
 

backdafuckup a écrit :


Ceci dit, quel est la méthode qu'ont utilisé certains de ce forum pour programmer les bots (récupérations de texte dans les pages de hfr) ? J'ai vu les langages utilisés : asm pour harko(...), java pour benou, et après les autres je sais pas...
C'est possible dans tout langage non ?


personnellement, moi j'y suis allé de manière assez bourrine :
- ouverture d'un socket pour me connecter sur http://forum.hardware.fr/forum1.php3?cat=10
- envoi par ce socket d'une requete GET pour obtenir la page HTML
- avec une lib que j'avais trouvée pour gérer les expressions régulières en assembleur, je parsais la page pour trouver le titre du topic Blabla@prog et le nombre de posts. Je récupérais ainsi le numéro du post et dés qu'il était égal à 999 (et non à 997 comme ce tricheur de Benou :kaola:), je postais via une requete POST
 
on avait fait un topic pour ça :'(
http://forum.hardware.fr/forum2.ph [...] 571&cat=10


---------------
J'ai un string dans l'array (Paris Hilton)
n°572091
MagicBuzz
Posté le 20-11-2003 à 23:56:05  profilanswer
 

Harkonnen a écrit :


personnellement, moi j'y suis allé de manière assez bourrine :
- ouverture d'un socket pour me connecter sur http://forum.hardware.fr/forum1.php3?cat=10
- envoi par ce socket d'une requete GET pour obtenir la page HTML
- avec une lib que j'avais trouvée pour gérer les expressions régulières en assembleur, je parsais la page pour trouver le titre du topic Blabla@prog et le nombre de posts. Je récupérais ainsi le numéro du post et dés qu'il était égal à 999 (et non à 997 comme ce tricheur de Benou :kaola:), je postais via une requete POST
 
on avait fait un topic pour ça :'(
http://forum.hardware.fr/forum2.ph [...] 571&cat=10


là c'est plus compliqué, faut remplir le formulaire et faire un post ;)
 
nan, franchement, techniquement, avec un macro excel de 10 lignes ça roule tout seul (j'ai déjà dû en poster une qui fait ça ici)
seulement je filerai pas un bout de code si c'est pour récupérer des infos sur ce site.


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  Divers

  Récupérer du texte d'une page web

 

Sujets relatifs
PB affichage page siteouvrir fichier texte en binaire, réinventage de roue???
Récupérer des informations sur les fichiers en asprécupérer le résultat d'un programme dans un .bat
[HTML] Ouvrir un lien dans une nouvelle page?[HTML]bouton radio multiple avec zone de texte
[CSS] Div -> le texte ne s'affiche pas car pas de scrollbar[MFC] Saisie de texte dans une fenêtre d'appli SDI
peut on recuperer la "value" d'un div ?[html] Aligner du texte à gauche et à droite sur une même ligne[resol]
Plus de sujets relatifs à : Récupérer du texte d'une page web


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR