Skip to content

lzmy1993/LittleSpide

Folders and files

NameName
Last commit message
Last commit date

Latest commit

359b4b7 · Dec 4, 2015

History

10 Commits
Dec 4, 2015
Nov 12, 2015
Nov 12, 2015
Nov 12, 2015
Dec 4, 2015

Repository files navigation

LittleSpide

a little web spide 这里主要介绍整个库的架构:
使用语言:python2.7
平台:Mac OS
需要安装的第三方库:BeautifulSoup,BitVector
文件:
1.spide.py 是程序的主函数文件
 下载所有文件后,安装缺少的库,之后运行该文件即可,如果想修改种子地址,请在main函数中修改run()的参数,
  默认为http://computer.hdu.edu.cn,并且分析你要爬的网站URL的组成,在is_needURL()函数中,修改防止爬到外网地址的信息。
2.download.py 是主要的下载函数文件
 下载文件类型:['.pdf','.html','.doc','.docx','.png','.jpg','.gif','.txt','.xml','.ppt','.xls','.xlsx']
 请在这里的下载函数内,修改变量local的值为你想保存下载文件的路径
3.bloomFilter.py 是实现布隆过滤的文件(说明,该文件是其他开发者的开源文件,我只是做了点修改)
 bloomFilter里使用了BitVector库,请自行到网路上下载
4.dowloadVideo.py是用于下载视频的,该项目中并未添加,如果有需要,自行在下载函数中添加

About

a little web spide

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages