A small web crawler named aranea (Latin for spider). https://www.bananas-playground.net/projekt/aranea/
Banana 5800264126 better readme | před 1 týdnem | |
---|---|---|
documentation | před 1 týdnem | |
lib | před 1 měsícem | |
storage | před 2 roky | |
.gitignore | před 1 týdnem | |
CHANGELOG | před 1 týdnem | |
COPYING | před 1 měsícem | |
LICENSE | před 1 měsícem | |
README.md | před 1 týdnem | |
TODO | před 1 týdnem | |
VERSION | před 2 roky | |
cleanup.pl | před 1 týdnem | |
config.default.txt | před 1 týdnem | |
fetch.pl | před 1 týdnem | |
parse-results.pl | před 1 týdnem | |
setup.sql | před 2 roky |
https://www.bananas-playground.net/projekt/aranea
A small web crawler named aranea (Latin for spider). The aim is to gather unique domains to show what is out there.
It starts with a given set of URL(s) and parses them for more
URLs. Stores them and fetches them too. perl fetch.pl
Each URL result (Stored result from the call) will be parsed
for other URLs to follow. perl parse-results.pl
After a run cleanup will gather all the unique Domains into
a table. Removes URLs from the fetch table which are already
enough. perl cleanup.pl
The table url_to_ignore
does have a small amount of domains and part of domains which will be ignored.
Adding a global SPAM list would be overkill.
A good idea is to run it with a DNS filter, which has a good blocklist.