a little web spide
这里主要介绍整个库的架构:
使用语言:python2.7
平台:Mac OS
需要安装的第三方库:BeautifulSoup,BitVector
文件:
1.spide.py 是程序的主函数文件
下载所有文件后,安装缺少的库,之后运行该文件即可,如果想修改种子地址,请在main函数中修改run()
的参数,
默认为http://computer.hdu.edu.cn
,并且分析你要爬的网站URL的组成,在is_needURL()
函数中,修改防止爬到外网地址的信息。
2.download.py 是主要的下载函数文件
下载文件类型:['.pdf','.html','.doc','.docx','.png','.jpg','.gif','.txt','.xml','.ppt','.xls','.xlsx']
请在这里的下载函数内,修改变量local
的值为你想保存下载文件的路径
3.bloomFilter.py 是实现布隆过滤的文件(说明,该文件是其他开发者的开源文件,我只是做了点修改)
bloomFilter里使用了BitVector库,请自行到网路上下载
4.dowloadVideo.py是用于下载视频的,该项目中并未添加,如果有需要,自行在下载函数中添加
-
Notifications
You must be signed in to change notification settings - Fork 1
lzmy1993/LittleSpide
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
a little web spide
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published