分类
大小:6 KB更新日期:2020-09-21 08:01:43.000
类别:网络辅助下载量:48011
Url采集工具是一款非常实用的url批量采集的脚本工具,软件可以帮助用户对百度热门搜索的关键词,360搜索、搜狗搜索等多个搜索引擎的内容进行采集。此外,Url采集器免费版还能对单一网址进行采集,功能十分全面。
Url采集器工具使用方法十分方便,全视图模块的操作方式,只需要的点击鼠标就能完成,有需要的朋友们,赶紧下载吧。
程序主要运用于安全渗透测试项目,以及批量评估各类CMS系统0DAY漏洞的影响程度,同时也是批量采集自己获取感兴趣的网站的一个小程序~~
测试环境为 Python 2.7.x 如果需要python3版本的,可以自行修改,或者我的博客留言
目前只可以采集百度搜索引擎的结果。并且每页默认显示50条记录。可自定义输入要采集的页数。
如果要采集关键词为“hacker”的相关网站,采集百度结果的前3页,则输入如下:
please input keyword:hacker
Search Number of pages:3
1:Url采集工具获取到的是百度搜索结果的真实URL地址
2:可以忽略不需要的常见网站,如忽略百度翻译,等等所有百度相关结果,给数组添加baidu.com即可。程序已经默认忽略了很多条啦,如
filter_array1 = ['baidu.com','sina.com.cn','sohu.com','taobao.com','douban.com','163.com','tianya.cn','qq.com','1688.com']
filter_array2 = ['ganji.com','58.com','baixing.com']
filter_array3 = ['zhihu.com','weibo.com','iqiyi.com','kugou.com','51.com','youku.com','soku.com','acfun.cn','verycd.com']
filter_array4 = ['google.cn','youdao.com','iciba.com','cdict.net']
filter_array5 = ['pconline.com.cn','zcool.com.cn','csdn.net','lofter.com']
3:实时显示采集到的网页的【真实URL】以及【标题】。前面的【ID】对应的是当前页百度结果的第X条数据
4:自动保存结果到当前目录的txt文件,文件名为搜索的 关键词.txt 为了方便导入到其他工具,txt文件里面只记录了采集的网址。如果需要同时记录标题,把代码中的注释删除即可
5:自动去除重复记录
6:统计总采集条数(143 found),有效的条数(91 checked),被过滤的条数(52 filter),以及被过滤的重复的URL条数(9 delete)
7:开源,任何人都可以下载使用。由于本人能力有限,如果有好的建议以及修改,也希望能一起完善
8:跨平台,并且无捆绑后门风险。以前网上有的百度URL采集软件大部分为WINDOWS下的可执行文件,并且现在百度更新后无法正常采集。
9:程序会不断更新
由于时间仓促,没有做优化。很多自定义参数也采用了默认值,下一个版本加上自定义参数
后免将陆续添加Bing搜索引擎,goole引擎的采集功能,与百度的进行一个合并。如果需求提高,也增加多线程或者多进程扫描
如果百度更新导致采集不到内容,可以在我的博客留言联系我进行修改
相关下载
易搜网页数据采集器免费下载 v2.0.2.0 最新版2.3M | v1.25
下载老树谷歌地图数据采集大师 v1.3.0.3 绿色版2.3M | v1.25
下载超次元数据采集分发系统下载 v1.4.2.0 最新版2.3M | v1.25
下载Wifinian(wifi控制软件) v2.4.1 绿色版2.3M | v1.25
下载The Dude中文汉化版下载 v6.47.49 最新版2.3M | v1.25
下载xclient软件官方下载 v2.0 增强版2.3M | v1.25
下载TCPDUMP网络爬虫分析工具下载 v4.9.3 免费版2.3M | v1.25
下载金万维动态域名官方客户端下载 v6.5.0.135 免费版2.3M | v1.25
下载IP子网掩码计算器绿色版最新下载 v1.8 免费版2.3M | v1.25
下载后羿采集器官方下载 v3.5.3 最新版2.3M | v1.25
下载
山东潍坊联通 网友 夜之潘多拉
下载挺快的
天津移动 网友 一剑倾城
支持支持!
新疆乌鲁木齐电信 网友 当时明月在
玩了半天有点累,休息下来评论下
河南平顶山移动 网友 梵音战阁
废话,非常好玩。
陕西西安电信 网友 至少、还有你
还在研究游戏中,很多功能不会玩~~