-
Notifications
You must be signed in to change notification settings - Fork 54
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
sese-engine是否完全遵守了robots协议以及配置.py里爬虫的名字是什么意思 #38
Comments
sese-engine实现上是尊重robots协议的,但是测试环境的爬虫的名字的确不是loli_spider…… |
哦明白了 |
所以我们能不能通过环境变量来控制 |
所以我们能不能通过环境变量来控制 |
如果用环境变量的话,那其他的配置怎么办?全部变成环境变量吗? |
其实如果可以,能不能把配置独立于配置.py。弄一个配置.json |
啊,配置.json和配置.py不一样吗? |
不太一样,我的意思是配置.py里可以决定配置.json的位置,这样可以在用docker时不用为了改 |
啊,我以为docker的用法是大家自己进到里面去把文件改了然后再运行的2333 |
你等一会可能就好了 |
算了吧,能访问也不是坏事 |
我想问一下sese-engine是否完全遵守了robots协议
我在https://sese.yyj.moe 上搜索
bilibili
时得到如下结果但是根据https://www.bilibili.com/robots.txt 来看,sese-engine里默认配置的
loli_spider
显然不属于允许的UA那么如果sese-engine完全遵守了robots协议,则不会爬到https://www.bilibili.com
所以是https://sese.yyj.moe 修改了
爬虫的名字
还是sese-engine不是完全遵守robots协议另外
大部中国分网站的
robots.txt
喜在文件末尾写上所以如果我希望能和正常的搜索引擎一样爬取是否需要修改 爬虫的名字
The text was updated successfully, but these errors were encountered: