A small web crawler named aranea (Latin for spider). https://www.bananas-playground.net/projekt/aranea/

Banana cafc554c1b documentation 2 năm trước cách đây
documentation cafc554c1b documentation 2 năm trước cách đây
lib cfdca6000e project cleanup and updated project website links 2 năm trước cách đây
storage 24fb355861 fetch.pl 2 năm trước cách đây
CHANGELOG 17aef3b5ab cleanup of the code and some paperwork 2 năm trước cách đây
LICENSE 17aef3b5ab cleanup of the code and some paperwork 2 năm trước cách đây
README cfdca6000e project cleanup and updated project website links 2 năm trước cách đây
VERSION 17aef3b5ab cleanup of the code and some paperwork 2 năm trước cách đây
cleanup.pl cfdca6000e project cleanup and updated project website links 2 năm trước cách đây
config.txt cfdca6000e project cleanup and updated project website links 2 năm trước cách đây
fetch.pl cfdca6000e project cleanup and updated project website links 2 năm trước cách đây
parse-results.pl cfdca6000e project cleanup and updated project website links 2 năm trước cách đây
setup.sql cfdca6000e project cleanup and updated project website links 2 năm trước cách đây

README

https://://www.bananas-playground.net/projekt/aranea

A small web crawler named aranea (Latin for spider).
The aim is to gather unique domains to show what is out there.

It starts with a given set of URL(s) and parses them for more
URLs. Stores them and fethches them too.
-> fetch.pl

Each URL result (Stored result from the call) will be parsed
for other URLs to follow.
-> parse.pl

After a run cleanup will gather all the uniqe Domains into
a table. Removes URLs from the fetch table which are already
enough.
-> cleanup.pl