PHP

Probablement un problème de regexp....? (extraction d'URL)

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : Probablement un problème de regexp....? (extraction d'URL)

redvivi

Bonjoir à tous !

Je rencontre un problème avec un script d'extraction de liens extrait depuis:http://www.sunyday.net/article-PHP [...] -page.html (il y a aussi les explications techniques concernant le script)

Ce script fonctionne bien sur certaines pages web mais pas sur les miennes, voici un extrait du code HTML d'une de mes pages:

Code :

<tr><td><a class="ad_headline hover_red" href="/encrypt.php?ps=538427a7d0&dn=monsite.com.com&vu=eCa_W-5b-p-yALMj4%26num%3D4%26adurl%3Dhttp%3A%2F%2Fwww.tf1.fr%2Fe%2F%3Dca-dp_3ph_xml&cc=0.1&bc=0.1&sk=2945+4&qt=main&tg=5&ld=20">Liens1</a></td></tr>
<a href="/encrypt.php?ps=538427a7d0&dn=monsite.com.com&vu=eCa_W-5b-p-yALMj4%26num%3D4%26adurl%3Dhttp%3A%2F%2Fwww.tf1.fr%2Fe%2F%3Dca-dp_3ph_xml&cc=0.1&bc=0.1&sk=2945+4&qt=main&tg=5&ld=20";<a>blabla</a>

Le problème (je pense), est que la forme des URL n'est pas http://....du coup, le script ne les prend pas et je n'arrive pas à le modifier (mes connaissances sont assez limites).
Et voici le code que j'utilise pour capturer les URLs:

Code :

$URL = 'http://www.monsite.com/';
// Retrieve URL informations
$RegEx='(http:\/\/|HTTP:\/\/|https:\/\/|HTTPS:\/\/)([a-zA-Z.0-9-]*)([\/a-zA-Z.-_]*\/)';
ereg($RegEx,$URL,$Values);
$URL_Proto = $Values[1];
$URL_Server = $Values[2];
$URL_Folder = $Values[3];
// Retrieve document & search for URLs
$Document = file_get_contents($URL);
$RegEx = '#<[aA](\s)*(href|HREF)(\s)*=(\s)*[\"|\'](.*?)[\"|\'](.*?)>#is';
preg_match_all($RegEx,$Document,$Results,PREG_PATTERN_ORDER);
foreach ($Results[5] as $Link)
{
if ( ereg(":",$Link) )
{
$RegEx = "#([a-zA-Z]*):#is";
preg_match_all($RegEx,$Link,$ResultsProto,PREG_PATTERN_ORDER);
$Protocol = strtoupper($ResultsProto[1][0]);
if ( $Protocol == "HTTP" || $Protocol == "HTTPS" )
echo $Link."\r\n";
}
else
echo $URL_Proto.$URL_Server.$URL_Folder.$Link."\r\n";
}

Que puis je faire pour que ça fonctionne ?

Merci à tous !
RedVivi

Message édité par redvivi le 16-07-2008 à 23:47:50

Publicité

ZeBix

edit > preview

essaye pour ta première parenthèse ceci :

Code :

([http:\/\/|HTTP:\/\/|https:\/\/|HTTPS:\/\/]{0,1})

*edit* plus de problème de duplicité de protocole

btw tes regexp sont un peu crado ... genre par de ^, pas de $ , pas de slash, etc. ça marche peut-être comme tu les écris mais c'est pas le plus clean...

Message édité par ZeBix le 17-07-2008 à 16:47:20

FORUM HardWare.fr

Programmation

PHP

Probablement un problème de regexp....? (extraction d'URL)

Sujets relatifs
URL Rewriting de base...	Probleme liens non surlignes dans opera/firefox
Probleme de tri + selection de page	[Résolu]Problème de requête SELECT
[URL REWRITING] Règle qui pose problème	probleme requete jointure et distinct
Problème de calcul modulo	Problème de pointeur
[CSS] Problème de footer sous un div avec du contenu fixe/variable
Plus de sujets relatifs à : Probablement un problème de regexp....? (extraction d'URL)

Page générée en 0.052 secondes