Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1744 connectés 

  FORUM HardWare.fr
  Programmation
  PHP

  Mais comment font ces méta moteurs pour alimenter leur base de données

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Mais comment font ces méta moteurs pour alimenter leur base de données

n°1808739
welcominh
Posté le 05-11-2008 à 17:54:59  profilanswer
 

Bonjour à tous, j'ai une question plutot d'ordre général que technique.

 

Vous connaissez surement ces sites rapidlibrary.com et 4megaupload.com qui sont deux moteurs de recherche pour 2 célèbres hébergeurs de fichiers. J'ai pu lire qu'apparemment ils étaient codés en PHP et javascript. Jusque là pas de probleme.
J'ai essayé de faire un méta moteur moi-même. Le résultat n'est pas mauvais à mon sens. Il s'agit du site dans ma signature. C'est alors que je me trouve confronté à une énigme: ces 2 fameux sites voient leurs bases s'agrandir à une vitesse folle chaque jour. Et j'ai beau me creuser la tête, je ne vois pas où ils vont piquer tous ces liens. 40 000 lignes ajoutées en un jour c'est énorme  :ouch:

 

Quelqu'un n'aurait-il pas une idée de comment ces moteurs alimentent leur base?
Merci beaucoup.

Message cité 1 fois
Message édité par welcominh le 05-11-2008 à 17:56:16

---------------
Direct-download.com, le moteur de recherche pour Mega
mood
Publicité
Posté le 05-11-2008 à 17:54:59  profilanswer
 

n°1808743
omega2
Posté le 05-11-2008 à 18:09:42  profilanswer
 

Ils utilisent simplement un programme qui bosse 24h/24 sans interruption.
Il n'y a rien d'exceptionnel dans cette quantité là.

n°1808749
welcominh
Posté le 05-11-2008 à 18:22:57  profilanswer
 

Tu penses qu'il s'agisse d'un script genre PHP qui tourne constamment?
ou un programme tiers sur le serveur?
J'y connais pas grand chose dans ce domaine :/


---------------
Direct-download.com, le moteur de recherche pour Mega
n°1808751
omega2
Posté le 05-11-2008 à 18:26:36  profilanswer
 

Pour gagner en vitesse d'exécution il est plus logique de faire un programme en C, en delphi ou tout autre langage compilé. Mais c'est faisable en php si on a une machine assez puissante.

n°1808758
welcominh
Posté le 05-11-2008 à 18:41:10  profilanswer
 

donc si je comprends bien c'est soit:
- un programme tiers sur le serveur qui passent son tps à crawler internet et alimente la base de données.
- un programme tiers en local qui crawle en utilisant la connexion internet du gars et qui se connecte à la base distante pour l'alimenter

 

J'ai tout pigé? ^^


Message édité par welcominh le 05-11-2008 à 18:41:26

---------------
Direct-download.com, le moteur de recherche pour Mega
n°1808760
omega2
Posté le 05-11-2008 à 18:42:31  profilanswer
 

C'est ça.

n°1808761
welcominh
Posté le 05-11-2008 à 19:01:57  profilanswer
 

Merci omega2 pour ton intervention, j'apprécie beaucoup! :)
Si quelqu'un d'autre en sait davantage sur la question, je reste ouvert ;)


---------------
Direct-download.com, le moteur de recherche pour Mega
n°1808764
flo850
moi je
Posté le 05-11-2008 à 19:08:58  profilanswer
 

sur l'intranteque je developpe, j'indexe un peu plus de 400 000 documents , en php , masi je m'appuie  sur lucene pour indexer tout ca , d'autre utilise sphinx   pour stocker et organiser  les données

 

l'avantage de sphinx est d'etre une surcouche sur mysql , c'est assez simple a mettre en place.  PErso , j'ai préféré lucene pour sa puissance au niveau des filtres

 

apres , tu fasi, en php , les interface de consultation, ou tu t'appuie sur des crawler qui fonctionnent deja et tu te contente des les intégrer


Message édité par flo850 le 05-11-2008 à 19:12:11
n°1808800
Profil sup​primé
Posté le 05-11-2008 à 22:21:19  answer
 

welcominh a écrit :

Bonjour à tous, j'ai une question plutot d'ordre général que technique.
 
...
Et j'ai beau me creuser la tête, je ne vois pas où ils vont piquer tous ces liens.40 000 lignes ajoutées en un jour c'est énorme  :ouch:
 
Merci beaucoup.


'lut
ce nombre est complètement ridicule pour un moteur de recherche, si tu nous parlais de millions/jours ce serait déjà plus proche de la réalité
comme le souligne omega2, faut pas chercher à rivaliser avec les moteurs les plus connus avec un moteur en php
omega2 -> c'est un peu la facilité la "machine assez puissante" : cela peu cacher un algorithme super lent

n°1808932
grosbin
OR die;
Posté le 06-11-2008 à 11:54:07  profilanswer
 

:ange: MegaLeech mwé .. vérifies les broken links aussi
+1

Message cité 1 fois
Message édité par grosbin le 06-11-2008 à 11:54:35

---------------
Photos Panoramiques Montagnes Haute Savoie
mood
Publicité
Posté le 06-11-2008 à 11:54:07  profilanswer
 

n°1808980
omega2
Posté le 06-11-2008 à 13:20:47  profilanswer
 

Heu, je me permet quand même de vous rappeler que faute d'info contraire il faut considérer que la base de donné sera sur le même serveur que celui qui traite les pages et qu'une base très remplis (plusieurs dizaines ou centaines de gigas de données dans une même table) finis par ralentir la machine dès qu'on y rajoute des données ou qu'on y cherche des données.
Là où un pentium 400 suffit très largement pour parser une page en deux secondes même avec un mauvais algo, il n'en est pas de même quand on a une base de donnée qui patine à côté.

n°1811786
welcominh
Posté le 13-11-2008 à 18:37:20  profilanswer
 

grosbin a écrit :

:ange: MegaLeech mwé .. vérifies les broken links aussi


Oui j'ai aussi remarqué des liens morts. Je comptais rajouter la possibilité de signaler des liens morts.
 
Pour en revenir, j'ai un hébergement mutualisé. Je ne peux donc rien installer.
Je cherche donc un web crawler gratuit sous windows donc. (Oui blamez moi si vous voulez mais je ne suis pas à l'aise avec Linux :kaola: ) j'ai cherché un peu mais je n'ai rien trouvé à part un win web crawler qui n'est pas terrible après l'avoir testé :/
Si quelqu'un en connait, je suis preneur :)
 
Merci


---------------
Direct-download.com, le moteur de recherche pour Mega
n°1811788
flo850
moi je
Posté le 13-11-2008 à 18:38:32  profilanswer
 

lucene/nutch ?
mias l'installation est loin d'etre triviale


---------------

n°1812838
welcominh
Posté le 16-11-2008 à 23:44:46  profilanswer
 

woah tu ments pas toi quand tu dis que l'installation n'est pas simple  :sweat:
Je n'y suis pas vraiment arrivé. Problème de java, l'install du SE sur le site de Sun avait l'air buggé, j'ai du la prendre sur un autre site. Même après ca, en faisant un "nutch crawl" d'après le tuto à suivant, j'ai une exception. Donc problème de java. J'ai désinstallé plein de fois, réinstallé java plein de fois. J'en peux plus  :sweat:
Je laisse de coté pour le moment, à moins qu'il n'y ait une solution plus simple :/


---------------
Direct-download.com, le moteur de recherche pour Mega

Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  PHP

  Mais comment font ces méta moteurs pour alimenter leur base de données

 

Sujets relatifs
Problème d'accents après copie d'une base [résolu]Synchronisation de deux bases de données (Access 2003)
modifier le moteur d'une base Mysqljointure en gardant toute la table de base
VBS & ADSI Probléme de création de "dossier de base"Sauvegarde images (url) dans base de donnée
chargement de data en base postgres[Joomla] composant/module basé sur la reservation
Données externes sous excel 
Plus de sujets relatifs à : Mais comment font ces méta moteurs pour alimenter leur base de données


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR