Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

sese-engine是否完全遵守了robots协议以及配置.py里爬虫的名字是什么意思 #38

Open
mengguyi opened this issue Jan 3, 2023 · 16 comments

Comments

@mengguyi
Copy link
Contributor

mengguyi commented Jan 3, 2023

我想问一下sese-engine是否完全遵守了robots协议
我在https://sese.yyj.moe 上搜索bilibili时得到如下结果
image
但是根据https://www.bilibili.com/robots.txt 来看,sese-engine里默认配置的loli_spider 显然不属于允许的UA
那么如果sese-engine完全遵守了robots协议,则不会爬到https://www.bilibili.com
所以是https://sese.yyj.moe 修改了爬虫的名字还是sese-engine不是完全遵守robots协议

另外
大部中国分网站的robots.txt喜在文件末尾写上

User-agent: *
Disallow: /

所以如果我希望能和正常的搜索引擎一样爬取是否需要修改 爬虫的名字

@RimoChan
Copy link
Owner

RimoChan commented Jan 3, 2023

sese-engine实现上是尊重robots协议的,但是测试环境的爬虫的名字的确不是loli_spider……

@mengguyi
Copy link
Contributor Author

mengguyi commented Jan 3, 2023

哦明白了

@mengguyi
Copy link
Contributor Author

mengguyi commented Jan 3, 2023

所以我们能不能通过环境变量来控制爬虫的名字因为docker改代码很麻烦

@mengguyi mengguyi closed this as completed Jan 3, 2023
@mengguyi
Copy link
Contributor Author

mengguyi commented Jan 3, 2023

所以我们能不能通过环境变量来控制爬虫的名字因为docker改代码很麻烦

@mengguyi mengguyi closed this as completed Jan 3, 2023
@RimoChan
Copy link
Owner

RimoChan commented Jan 3, 2023

如果用环境变量的话,那其他的配置怎么办?全部变成环境变量吗?

@mengguyi
Copy link
Contributor Author

mengguyi commented Jan 3, 2023

如果用环境变量的话,那其他的配置怎么办?全部变成环境变量吗?

其实如果可以,能不能把配置独立于配置.py。弄一个配置.json

@mengguyi
Copy link
Contributor Author

mengguyi commented Jan 3, 2023

image
那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug

@mengguyi
Copy link
Contributor Author

mengguyi commented Jan 3, 2023

@RimoChan
Copy link
Owner

RimoChan commented Jan 3, 2023

其实如果可以,能不能把配置独立于配置.py。弄一个配置.json

啊,配置.json和配置.py不一样吗?

@RimoChan RimoChan reopened this Jan 3, 2023
@mengguyi
Copy link
Contributor Author

mengguyi commented Jan 3, 2023

不太一样,我的意思是配置.py里可以决定配置.json的位置,这样可以在用docker时不用为了改配置.py自己编译镜像

@RimoChan
Copy link
Owner

RimoChan commented Jan 3, 2023

image 那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug

应该是,怪耶。

但是我访问了一下你的域名,然后用不了,它说你的后端ssl有问题……

@RimoChan
Copy link
Owner

RimoChan commented Jan 3, 2023

不太一样,我的意思是配置.py里可以决定配置.json的位置,这样可以在用docker时不用为了改配置.py自己编译镜像

啊,我以为docker的用法是大家自己进到里面去把文件改了然后再运行的2333

@mengguyi
Copy link
Contributor Author

mengguyi commented Jan 3, 2023

image 那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug

应该是,怪耶。

但是我访问了一下你的域名,然后用不了,它说你的后端ssl有问题……

玄学,时不时能访问,服务器家里云

@mengguyi
Copy link
Contributor Author

mengguyi commented Jan 3, 2023

你等一会可能就好了

@RimoChan
Copy link
Owner

RimoChan commented Jan 3, 2023

image 那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug

我试了一下,默认配置下的确是不能访问B站的,真奇怪……

@mengguyi
Copy link
Contributor Author

mengguyi commented Jan 3, 2023

算了吧,能访问也不是坏事

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants