rc_jk78 | Bon, les premiers soucis se pointent -_-
Code :
- <addinfourl at 137915244 whose fp = <socket._fileobject object at 0x82fced4>>
- toto
- Traceback (most recent call last):
- File "allocine.py", line 13, in <module>
- soup = BeautifulSoup(page)
- File "/usr/lib/python2.5/site-packages/BeautifulSoup.py", line 1499, in __init__
- BeautifulStoneSoup.__init__(self, *args, **kwargs)
- File "/usr/lib/python2.5/site-packages/BeautifulSoup.py", line 1230, in __init__
- self._feed(isHTML=isHTML)
- File "/usr/lib/python2.5/site-packages/BeautifulSoup.py", line 1263, in _feed
- self.builder.feed(markup)
- File "/usr/lib/python2.5/HTMLParser.py", line 108, in feed
- self.goahead(0)
- File "/usr/lib/python2.5/HTMLParser.py", line 150, in goahead
- k = self.parse_endtag(i)
- File "/usr/lib/python2.5/HTMLParser.py", line 314, in parse_endtag
- self.error("bad end tag: %r" % (rawdata[i:j],))
- File "/usr/lib/python2.5/HTMLParser.py", line 115, in error
- raise HTMLParseError(message, self.getpos())
- HTMLParser.HTMLParseError: bad end tag: u'</scr" + "ipt>', at line 30, column 73
|
J'obtiens ça :s
Mon code est :
from BeautifulSoup import BeautifulSoup
import urllib2
page = urllib2.urlopen("http://www.allocine.fr/film/fichefilm_gen_cfilm=46211.html" )
print(page)
print("toto" )
soup = BeautifulSoup(page)
print (soup.prettify())
|
Alors, j'ai vu pour plusieurs voies ...
- Je me suis mal débrouillé pour mon code ( pourtant, c'est que de la récup d'exemples)
- Le code html n'est pas bien formé: en effet, sur la page, il y a bcp d'erreurs ( test W3C)
- Nettoyer le code HTML, mais, j'ai pas trouvé de module dans python qui permette de faire ça ...
- Autre ?
Donc, bon, je suis bloqué, dans mon élan :s et dire que j'etais suuper motivé pour y arriver rapidement ...
Merci pour votre aide |