Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1301 connectés 

  FORUM HardWare.fr
  Programmation
  Ruby/Rails

  Parser (x)HTML

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Parser (x)HTML

n°1529701
IrmatDen
Posté le 16-03-2007 à 19:53:58  profilanswer
 

Salut,
 
Je vais pas tarder à avoir besoin d'un parser html pour tenter d'ajouter des fonctions qui manquent cruellement à un embryon d'outils fait en php :/
Du coup, j'ai commencé à reluquer les parser html pour ruby, mais j'ai l'impression qu'il en existe un certain nombre; parmi lesquels:
> ymHTML (dernier paragraphe)
> Hpricot
> RAA
> ou encore Ruby HTML-to-XML pour après parser le XML résultant? (ça m'a l'air tout de même plus fastidieux comme méthode :D)
 
Est-ce que quelqu'un aura déjà utilisé tel ou tel parser? Les pages sont plutôt simples, donc je pense que je n'ai pas besoin d'un parser de folie... Super permissif peut-être. Je ne sais pas à quel point la page est valide par contre... (Faudra que je vérifie lundi ce point).

mood
Publicité
Posté le 16-03-2007 à 19:53:58  profilanswer
 

n°1529780
masklinn
í dag viðrar vel til loftárása
Posté le 16-03-2007 à 23:30:46  profilanswer
 

Pour faire du screen-scraping, Hpricot est très très bien :jap:

 

Sinon, il y a également RubyfulSoup, je ne l'ai jamais utilisé mais c'est un port de la lib de screen scraping BeautifulSoup pour Python, dont je suis grand fan :D

 

Je pense néamoins que je conseillerais Hpricot, cette lib a vraiment un "feeling" Ruby à l'utilisation :D


Message édité par masklinn le 16-03-2007 à 23:31:10

---------------
Stick a parrot in a Call of Duty lobby, and you're gonna get a racist parrot. — Cody
n°1529788
souk
Tourist
Posté le 16-03-2007 à 23:45:43  profilanswer
 

+1 sur Hpricot, tres bon [:dawa]

n°1529796
IrmatDen
Posté le 16-03-2007 à 23:58:38  profilanswer
 

Merci pour ce pré-tri :)
Après survol des 2, et vu que je n'ai pas d'habitude sur BeautifulSoup, je vais jouer un peu avec Hpricot en premier. Et à voir l'utilisation, je sens que je vais apprendre des constructions sur Ruby au passage :D
 
Merci à vous 2 :jap:

n°1529984
IrmatDen
Posté le 17-03-2007 à 20:07:45  profilanswer
 

Bon, j'ai attaqué Hpricot, et cette lib me plaît vraiment pour l'instant (bon, au passage j'ai découvert les XPath, donc y'a ptet pas *que* Hpricot  [:god] )

 

J'ai une petite question perf du coup: pour m'exercer avec cette lib, j'ai voulu faire un semblant de parser de blog qui fait un rss-like. Le blog que je parse (http://labs.trolltech.com/blogs/ si vous voulez le voir directement) a cette archi:

<plein de balises mères>
    <div id="post-346" class="post">
        <div class="blogHeader">
            <div class="blogTitle">
                le titre avec le lien..
            </div>
            <d'autres div...></d'autres div...>
        </div>
        <div class="blogEntry">
            <blablabla le texte du blog séparé par paragraphe (ou pas)...>
        </div>
    </post x>
</plein de balises mères>

 

Pour l'instant, je fais la récupération des titres par le xpath qui va direct sur le div blogTitle, et ensuite pour chaque titre, je génére le xpath vers le blogEntry correspondant. Et donc je me demande s'il n'est pas moins coûteux d'avoir un xpath par "post", puis de descendre dans l'arbre en se basant dessus.
Des suggestions?

 

Edit: lien sur url pas automatique


Message édité par IrmatDen le 17-03-2007 à 20:12:54
n°1529985
masklinn
í dag viðrar vel til loftárása
Posté le 17-03-2007 à 20:13:55  profilanswer
 

Tu t'en soucieras si tu as l'impression que ton appli est trop lente, fais donc ce qui te semble donner le code le plus clair :o


---------------
Stick a parrot in a Call of Duty lobby, and you're gonna get a racist parrot. — Cody
n°1529987
IrmatDen
Posté le 17-03-2007 à 20:15:02  profilanswer
 

Bof, c'était du code jetable histoire de voir comment utiliser ce parser, pas plus.

n°1529989
masklinn
í dag viðrar vel til loftárása
Posté le 17-03-2007 à 20:17:50  profilanswer
 

Donc tu t'en fous, je répète mon conseil: fais ce qui te semble donner le code le plus clair, compréhensible et facilement maintenable, c'est le plus important :o


---------------
Stick a parrot in a Call of Duty lobby, and you're gonna get a racist parrot. — Cody
n°1529993
IrmatDen
Posté le 17-03-2007 à 20:27:38  profilanswer
 

Oui, oui, je vais y jeter un oeil, sinon, je saurais pas le plus clair des 2, sinon :D


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  Ruby/Rails

  Parser (x)HTML

 

Sujets relatifs
Parser html cppParser un html et récuperer une valeur
parser un fichier html avec phpLibrairie Parser Html
simili parser sur du html avec des regexp[PHP] Parser du HTML : par où commencer
CDATA contenant des balises HTML à parser[Xerces ?] Parser du HTML en Java
Comment parser un fichier en ASP et recuperer des tags HTML ?[PHP] Parser une page html
Plus de sujets relatifs à : Parser (x)HTML


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR