Vous ne trouvez pas de réponse à votre problème ? Alors posez la question dans le forum. Souvenez-vous qu'il n'y a jamais de question bête, mais rester dans l'ignorance parce que l'on n'ose pas poser une question, ça c'est une erreur !

WEB SPIDER - WEB CRAWLER


Information sur la source



Description

C'est une version simple en mode console d'un robot web : un spider ou crawler.
Les spiders ou crawler sont des robots qui parcourent le web pour en connaitre sa structure et éventuellement son contenu.
Ce sont les petites bêtes qu'utilisent les moteurs et parfois aussi les meta moteur de recherche.

Pour faire fonctionner celui la, il faudra installer la librairie htmlparser qui se trouve à l'adresse : http://htmlparser.sourceforge.net/
 

Conclusion

Utilisation :

- Ecrire l'url de base dans la variable URLSite
- Donner le nombre maximum d'url à "visiter" dans la variable maxURLtoVisit
- Rajouter éventuellement des extensions de fichiers dans le vecteur allowedExtensions si le site cible les utilise
- Positionner les différentes options du programme (leur nom est suffisement explicite)
A noter le booleen stayInDomain permet au spider de ne pas "déborder" de son site cible.
Si il est positionné à false, le spider ira se balader un peu n'importe où sur le web, mais c'est aussi interressant comme comportement.
- Compiler et lancer le programme

Liste des bugs : probablement...J'ai pas tout tester, à vous de jouer avec. Je reste à l'écoute pour les corrections (constructives s'entend, si c'est pour me dire il manque une virgule, je m'en peint le nombril avec le pinceau de l'indifférence... :o)
 

Fichier Zip

Pour les "Membres Club", vous pouvez télécharger directement un fichier contenu dans le zip sans télécharger le zip en entier !

Télécharger le zip

Commentaires et avis

signaler à un administrateur
Commentaire de karoudja le 17/08/2007 11:44:39

bravo source très intéressante. Celle-ci m'a fortement aidé pour mon application. merci bcp.

signaler à un administrateur
Commentaire de AlexN le 17/08/2007 20:35:47

de rien

à noter :

Il existe principalement deux méthodes pour parcourir un site (une arborescence) :

- breadth first : le robot visite les url au fur et et mesure qu'elles apparaissent dans les pages.
- deepth first : le robot commence à lire les pages puis descend dans l'arborescence dès qu'une url lue le permet puis termine la lecture des pages en remontant.

le source posté ici utilise la première méthode.

signaler à un administrateur
Commentaire de Nextanalyzer le 23/04/2008 10:22:25

Bonjour,

Je trouve me script très intéréssant et j'ai voulu l'essayer, je rencontre un gros soucis pour l'installation des librairies htmlphraser.
Je suis sur macintosh et j'utilise Netbeans, j'ai bien copier le contenu du dossier bin et lib dans ceux respectifs localisés dans libraries/java ...
J'ai beau compiler donc javac spider.java et la que des erreurs du à la librarie, j'ai donc du mal l'installer, je ne sais pas.

Pourriez vous m'éclairer s'il vous plaît ?

En vous remerciant d'avance.

signaler à un administrateur
Commentaire de AlexN le 26/04/2008 08:41:21

Bonjour,

je ne connais pas netbeans, je ne serais pas d'une grande aide. Sinon voici une méthode pour compiler en ligne :

- créer un répertoire nommé tmp à la racine d'une machine
- copier le fichier htmlparser.jar dans le répertoire tmp
- créer un répertoire spider dans le répertoire tmp
- copier le fichier Spider.java dans le répertoire spider
- compiler : javac -classpath \tmp\htmlparser.jar spider\Spider.java

Ajouter un commentaire

Discussions en rapport avec ce code source dans le forum

htmlparser [ par dalila5555 ] Bonjourje suis entrain de faire un parser pour une page HTML.je suis arrivée a la parser mais le probleme c'est que je veux identifier la balise retou htmlparser [ par dalila5555 ] Bonjourje veux bien récuperer la balise  <div id="zoom-keyword"> dans un fichier HTMLdonc voila j'ai fait un parser qui me recupere la balise di Simuler une touche avec robot.keyPress() [ par ocbslim ] ocbslimBonjour,Je suis en train de réalisé un module qui simule le fait de taper une chaine de caractere au clavier avec robot.keypress(). Cette chain utilisation java.awt.Robot [ par umafaid ] Bonjour, j'utilise la classe Robot pour me déplacer automatiquement sur un panel. Mais j'aimerais que le robot s'arrête au clic de l'utilisateur et Parser du HTML [ par JALEO WAHRANI ] Bonjour à tous,j'utilise actuellement htmlparser pour parser du HTML (logique !). Cependant je bute sur un problème car je voudrais ouvrir un fichier, Parser IFC [ par Aleguire ] Bonjour à tous. Je suis actuellement en 2 ème année de DUT informatique et dans le cadre de mon projet tut je dois travailler avec des documents IFC. parseur XML [ par haineT ] Salut a tous,1er prog en java, 1er probleme et donc premier post :). Je suis developpeur flash, et je voudrais elargir mes connaissances sur java. J'a Robot dynamique en JAVA [ par SuperSteph ] Je suis en 2éme année d'ecole d'info, en projet en train de faire en java un simulateur de robots points et robots omnidirectionnels. J'ai un probléme Mise e forme d'un fichier des info retirer a l'aide d'un Parser xml [ par Caralho27 ] J'effectuen un parsing sur plusieurs fichiers à l'aide d'un programme JAVA mais il me faudrait mettre les valeurs que g rechercher dans un tableau.Je Rafraichissement graphique d'un robot en simulation [ par SuperSteph ] On est en train de faire un projet qui simule un robot dynamiquement.On a reussi à faire evoluer le robot par contre on a une "trainéé". On aimerait v


Nos sponsors

Sondage...

CalendriCode

Décembre 2008
LMMJVSD
1234567
891011121314
15161718192021
22232425262728
293031    

Consulter la suite du CalendriCode

Téléchargements

Logiciels à télécharger sur le même thème :



Développement réalisé par Nicolas SOREL (Nix) avec l'aide de : Cyril DURAND et Emmanuel BAÏSE, Merci à Vincent pour ses précieux conseils
CodeS-SourceS.com© Toute reproduction même partielle est interdite sauf accord écrit du Webmaster
CodeS-SourceS.com© est une marque déposée tous droits réservés
Temps d'éxécution de la page : 0,203 sec

Google Coop CodeS-SourceS Google Coop CodeS-SourceS


Certaines images présentes sur le site (notament certains avatars) sont issues des collections IconShock, donc si vous souhaitez utiliser ces icons vous devez les acheter, ne les copiez pas et ne utilisez pas dans vos sites et applications sans les avoir commandé.