,
j ai la fonction suivante :
Code :
- def findextract(h, keywords, context=20):
|
qui dois regarder pour le premier mot cle trouve dans le string contenu dans <body></body>
h etant un objet Htmlparser, en gros quand je fais h.title il me renvoie la string qui il y avait entre <title> et pareille pour body ect..
keyword contient une liste de mot cle ['test','paragraph']
contexext : cest le nombre de lettres apres et avant le mot cle que je dois integrer a la reponse.
exemble du code html :
Code :
- <html>
- <head>
- <title>This is a test</title>
- <meta name = "description"
- content = "a test page">
- <meta name = "keywords"
- content = "keyword1 keyword2">
- </head>
- <body>
- <h1>The first title</h1>
- <p align="center">A (simple, intuitive) paragraph: has some
- non-alphanumeric characters.</p>
- </body>
- </html>
|
et la fonction dois me renvoyer :
Code :
- ntuitive) paragraph: has some
|
jai commence comme ca :
Code :
- if not h.body :
- return 'empty page'
- else :
- body_data = h.body.strip()
- for element in keywords :
- //
|
et la je pense utiliser une expression reguliere pour extraire le mot recherche (element) si il renvoie rien on continu sinon on arrete et on renvoie le mot +- 20 lettres.
autre chode que les expresions reguliere dans ce cas ?
Message édité par xiluoc le 03-05-2004 à 14:22:30