Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1656 connectés 

  FORUM HardWare.fr
  Programmation
  Python

  extraction de donné, help

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

extraction de donné, help

n°714075
xiluoc
un pc pour les unirs ....
Posté le 03-05-2004 à 12:32:40  profilanswer
 

:hello: ,
j ai la fonction suivante :

Code :
  1. def findextract(h, keywords, context=20):


 
qui dois regarder pour le premier mot cle trouve dans le string contenu dans <body></body>
 
h etant un objet Htmlparser, en gros quand je fais h.title il me renvoie la string qui il y avait entre <title> et pareille pour body ect..
 
keyword contient une liste de mot cle ['test','paragraph']
contexext : cest le nombre de lettres apres et avant le mot cle que je dois integrer a la reponse.
 
 
exemble du code html :

Code :
  1. <html>
  2.           <head>
  3.             <title>This is a test</title>
  4.             <meta name = "description"
  5.                   content = "a test page">
  6.             <meta name = "keywords"
  7.                   content = "keyword1 keyword2">
  8.           </head>
  9.           <body>
  10.             <h1>The first title</h1>
  11.             <p align="center">A (simple, intuitive) paragraph: has some
  12.             non-alphanumeric characters.</p>
  13.           </body>
  14.         </html>


 
et la fonction dois me renvoyer :

Code :
  1. ntuitive) paragraph: has some


 
jai commence comme ca :

Code :
  1. if not h.body :
  2.         return 'empty page'
  3.     else :
  4.         body_data = h.body.strip()
  5.         for element in keywords :
  6. //


et la je pense utiliser une expression reguliere pour extraire le mot recherche (element) si il renvoie rien on continu sinon on arrete et on renvoie le mot +- 20 lettres.
 
autre chode que les expresions reguliere dans ce cas ?
 :jap:


Message édité par xiluoc le 03-05-2004 à 14:22:30
mood
Publicité
Posté le 03-05-2004 à 12:32:40  profilanswer
 

n°714091
xiluoc
un pc pour les unirs ....
Posté le 03-05-2004 à 12:48:08  profilanswer
 

rhoo je suis un boulet je viens de voir un topic sur les strign je savais pas que "in" marchait aussi pour ca ...
 
reste plus quas trouver +- 20 char

n°714160
xiluoc
un pc pour les unirs ....
Posté le 03-05-2004 à 13:54:23  profilanswer
 

Code :
  1. if not h.body :
  2.         return 'empty page'
  3.     else :
  4.         body_data = h.body.strip()
  5.         for element in keywords :
  6.             if element.lower() in body_data.lower()  :
  7.                 begin_index = body_data.find(element)
  8.                 result = body_data [begin_index-10:begin_index+len(element)+10]
  9.                 return result

n°714219
xiluoc
un pc pour les unirs ....
Posté le 03-05-2004 à 14:19:30  profilanswer
 

hum parcontre j ai un autre pb :
 

Code :
  1. string = "(word1 & (Word2|woRd3))"


je veus une liste contenant word1 word2 word3
 

Code :
  1. return re.split('\W+',string .lower())


me donne ['','word1','word2',word3','']
je pourrais utiliser [-1:1] mais si jamais string est different ca risque de virer un word.
 
je coince :/

n°714257
lorill
Posté le 03-05-2004 à 14:38:05  profilanswer
 
n°714261
Taz
bisounours-codeur
Posté le 03-05-2004 à 14:39:56  profilanswer
 

laisse tomber. utilise les expressions régulières

n°714293
xiluoc
un pc pour les unirs ....
Posté le 03-05-2004 à 15:03:25  profilanswer
 

est que l utilisation dune expression reguliere sera plus rapide que la vilaine methode que j utilise : verifie que "element" != '' et si oui l ajoute a une list neuve ?

n°714298
Taz
bisounours-codeur
Posté le 03-05-2004 à 15:05:17  profilanswer
 

parce que ça prends beaucoup moins de code,q ue ça se comprends plus vite, que c'est certainement plus rapide, et que c'est comme ça qu'on fait pour parser du html (si on a pas de parser)


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  Python

  extraction de donné, help

 

Sujets relatifs
help: projet informatique a realiser en adaextraction d'une sous chaine de caractere ?
[JSP/SEVLET] Différences ? Dans quel cas Servlet, plutôt que JSP. HELP[JXTA] HELP !!!!!
Extraction et conversion d'un fichier xml en fichier imagehelp batch!!!!
Utilisation de Comparable et Comparator. help[Résolu][Java]JavaHelp need Help :)
surcharge de fonctions dans une dll classique, help plzRemplissage de polygônes - help!!
Plus de sujets relatifs à : extraction de donné, help


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR