Accueil > > > WEB SPIDER - WEB CRAWLER
WEB SPIDER - WEB CRAWLER
Information sur la source
Description
C'est une version simple en mode console d'un robot web : un spider ou crawler. Les spiders ou crawler sont des robots qui parcourent le web pour en connaitre sa structure et éventuellement son contenu. Ce sont les petites bêtes qu'utilisent les moteurs et parfois aussi les meta moteur de recherche. Pour faire fonctionner celui la, il faudra installer la librairie htmlparser qui se trouve à l'adresse : http://htmlparser.sourceforge.net/
Conclusion
Utilisation :
- Ecrire l'url de base dans la variable URLSite - Donner le nombre maximum d'url à "visiter" dans la variable maxURLtoVisit - Rajouter éventuellement des extensions de fichiers dans le vecteur allowedExtensions si le site cible les utilise - Positionner les différentes options du programme (leur nom est suffisement explicite) A noter le booleen stayInDomain permet au spider de ne pas "déborder" de son site cible. Si il est positionné à false, le spider ira se balader un peu n'importe où sur le web, mais c'est aussi interressant comme comportement. - Compiler et lancer le programme
Liste des bugs : probablement...J'ai pas tout tester, à vous de jouer avec. Je reste à l'écoute pour les corrections (constructives s'entend, si c'est pour me dire il manque une virgule, je m'en peint le nombril avec le pinceau de l'indifférence... :o)
Sources du même auteur
Sources de la même categorie
Commentaires et avis
Discussions en rapport avec ce code source dans le forum
htmlparser [ par dalila5555 ]
Bonjourje suis entrain de faire un parser pour une page HTML.je suis arrivée a la parser mais le probleme c'est que je veux identifier la balise retou
htmlparser [ par dalila5555 ]
Bonjourje veux bien récuperer la balise <div id="zoom-keyword"> dans un fichier HTMLdonc voila j'ai fait un parser qui me recupere la balise di
Simuler une touche avec robot.keyPress() [ par ocbslim ]
ocbslimBonjour,Je suis en train de réalisé un module qui simule le fait de taper une chaine de caractere au clavier avec robot.keypress(). Cette chain
utilisation java.awt.Robot [ par umafaid ]
Bonjour, j'utilise la classe Robot pour me déplacer automatiquement sur un panel. Mais j'aimerais que le robot s'arrête au clic de l'utilisateur et
Parser du HTML [ par JALEO WAHRANI ]
Bonjour à tous,j'utilise actuellement htmlparser pour parser du HTML (logique !). Cependant je bute sur un problème car je voudrais ouvrir un fichier,
Parser IFC [ par Aleguire ]
Bonjour à tous. Je suis actuellement en 2 ème année de DUT informatique et dans le cadre de mon projet tut je dois travailler avec des documents IFC.
Parser un fichier text en java (tokens) [ par theunknown0o ]
Bonjour,j'aimerai avoir un code qui pourrait parser en java un fichier texte le texte: ligne 1==> ab=X cd=Y ef=Zj'aimerai avoir a la fin ke les val
Gestion des balises XMl <include> avec un parser SAX-Handler [ par O Sensei ]
Bonjour, Voila tout est quasiment dans le titre. J'ai pour le moment mon parser SAX et un handler pour lire mon fichier XML. Je souhaiterai ajouter
Parser Java Google [ par Snacksou ]
Bonjour à tous,dans le cadre d'un projet de détection de plagiat à la fac, développé en Java, nous sommes amenés à faire des requêtes vers divers mote
parseur html [ par bassoumbassoum ]
Bonjour,j'ai éssayé un code pour parser un fichier html, j'ai réussit de sortir toutes les balises c'est mon codes:#import java.io.Serializable;import
|
Derniers Blogs
PARUTION DE MON LIVRE SUR WPF 4PARUTION DE MON LIVRE SUR WPF 4 par odewit
La 2e édition de mon livre sur WPF sort aujourd'hui en version numérique et lundi en version papier :-)
L'ouvrage présente de façon approfondie les fonctionnalités de WPF 4 : graphisme 2D et 3D, animation, multimédia, interfaces utilisateur, databind...
Cliquez pour lire la suite de l'article par odewit EDM : COMMENT UTILISER L'HORIZONTAL ENTITY SPLITTINGEDM : COMMENT UTILISER L'HORIZONTAL ENTITY SPLITTING par Matthieu MEZIL
Une des raisons pour lesquelles j'adore l'Entity Framework est la puissance de son mapping. Beaucoup de développeurs pour ne pas dire la plus part n'en n'ont pas conscience. Pour rappel, j'ai réalisé des videos (en anglais) sur le mapping . Certains scena...
Cliquez pour lire la suite de l'article par Matthieu MEZIL [WP7DEV][REACTIVE] RENDRE LES REACTIVE EXTENSIONS PLUS STABLES[WP7DEV][REACTIVE] RENDRE LES REACTIVE EXTENSIONS PLUS STABLES par jay
Lorsque l'on développe des applications .NET, les exceptions non gérées dans des threads ont le désagréable effet de terminer le processus courant.
Dans l'exemple suivant.......(read more) ...
Cliquez pour lire la suite de l'article par jay WINDBG / SOS / PSSCOR2 : FAILED TO LOAD DATA ACCESS DLL (MSCORDACWKS)WINDBG / SOS / PSSCOR2 : FAILED TO LOAD DATA ACCESS DLL (MSCORDACWKS) par coq
Ceux d'entre nous qui analysent des dumps d'applications .NET (notamment ceux créés via WER après un crash) en dehors de l'environnement initial ont probablement tous été confrontés au moins une fois au message suivant, à la saisie d'une commande SOS ...
Cliquez pour lire la suite de l'article par coq
Logiciels
Microsoft Office (2010)MICROSOFT OFFICE (2010)Microsoft Office 2010 offre de nouveaux moyens flexibles et puissants pour optimiser votre travai... Cliquez pour télécharger Microsoft Office SeaMonkey (2.0.7)SEAMONKEY (2.0.7)Le projet SeaMonkey est issu d'un effort communautaire pour developper une application tout en un... Cliquez pour télécharger SeaMonkey Safari (5.0.2)SAFARI (5.0.2)Le navigateur d'Apple a lui aussi été mis à jour, aussi bien dans sa mouture Windows que celle po... Cliquez pour télécharger Safari Mozilla FireFox (4.0 béta 5)MOZILLA FIREFOX (4.0 BéTA 5)Firefox 4.0 béta 5
L'une des nouveautés visibles les plus attendues réside sans doute dans l'a... Cliquez pour télécharger Mozilla FireFox Mozilla Firefox (3.6.9)MOZILLA FIREFOX (3.6.9)Firefox 3.6.9 corrige les problèmes suivants :
* Introduced support for the X-FRAME-OPTION... Cliquez pour télécharger Mozilla Firefox
|