Yande.re 图片爬虫
2017-03-07
前言
每天打开电脑第一件事,就是打开Y站,看看又更新了哪些图片、其中又有哪些适合作为壁纸
日久天长,总会感觉浪费时间精力,每天都要在一堆图片里找PC壁纸
这可不符合我作为一个码农的身份
正好最近想学学Python3
,于是一边看着廖学峰的Python教程一边撸出来这个项目。写得很差,轻喷
本项目基于Win7
、Python3.5.2
开发,其他环境下未测试
功能
- 支持从指定的开始页码爬取到结束页码
- 也支持从第一页爬取到上一次开始爬取的位置
- 支持设置爬取的图片类型(全部、横图、竖图、正方形)
- 支持最大或最小图片尺寸、宽高比限制
- 按照当天的日期创建目录并存放爬取的图片
- 爬取结束后会在图片目录下生成日志文件
如何使用
必须 编辑Function.py
第5
行,将该变量的值设为自己想要的目录,程序将会自动创建,路径必须以斜杠结尾
-
方案一:如果想要从开始页码爬到结束页码,请修改
index.py
第12
行和第15
行的两个变量; -
方案二:如果想要从开始页码爬取到上一次开始爬取的位置,请修改
index.py
第15
行的值为0
。还有last_start_id.data
的内容,改为某张图片的id即可。爬到此图片时程序将停止。该方案下推荐将开始页码设为1
,相当于每次执行都只从新增的图片中爬取
例如某图片的详情页Url为:
https://yande.re/post/show/346737
,则图片id为346737
然后命令行执行python index.py
即可(Windows下)。Linux下可直接执行
注意事项
值得一提的是,无论使用哪种方案运行,last_start_id.data
的内容都会被自动修改为爬取到的第一张图片的id
这样做的目的是为了实现方案二,相当于每次执行都只从新增的图片中爬取。比较适合设置为自动运行之类的
您好,我在最近使用的时候会报错,内容如下:
ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: certificate has expired (_ssl.c:1129)
我以为是yande的证书过期了,但是好像并不是...
大佬 这个是不是改了 我找不到行
找不到行?
大佬 不好意思打扰你了 我刚接触这个东西 很多都不了解 能不能给我发一下弄好的 我照猫画虎弄一下
这是开源项目,文中的项目地址里就有源码啊
我不会找这个 index.py第12行和第15行的两个变量
# 将选项转换为1/0以便判断,倒不是我忘了用bool……
return 2
是这个吗
请用 Python3
大佬,我这里运行的时候总会出现下面的提示
File "D:\Software\Yandere-crawler-master\index.py", line 11
SyntaxError: Non-ASCII character '\xd2' in file D:\Software\Yandere-crawler-master\index.py on line 11, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details
这是啥情况啊?
你是不是动过 index.py 里面的代码?
没啊,我就改了你说的几个。对了你这是不是要用python3啊
是的,上面写了呀
用了3也一样,还是这样子
你确定你用到3了?第11行是注释,没理由报错的。你检查一下版本
emmmmm,我按照网上的教程加了个编码申明,然后还是又给了这个提示
Traceback (most recent call last):
File "D:\Software\Yandere-crawler-master\index.py", line 28, in
last_start_id = int(Function.get('last_start_id.data')) # 上次开始爬取时第一张图片ID。爬到此ID则终止此次爬取
File "D:\Software\Yandere-crawler-master\Function.py", line 39, in get
file = open(file_name)
FileNotFoundError: [Errno 2] No such file or directory: 'last_start_id.data'
摸不着头脑.jpg
啊……脑阔痛.jpg
我下的最新的啊
好吧,我错了,我用的2,我去下个3试试
非常牛批的项目
如果可以识别图片内容,再加个搜索引起,妻不是爽到爆
大佬请问png不能批量下吗,png比jpg文件失真少,可以添加一下png吗?
https://yande.re/post/show/346737 这都是什么不堪入目的图片,楼主
三点不露如此健全怎么就不堪入目了
图片详情页里面有download PNG这个选项 想问下有没有这个功能
SyntaxError: Non-ASCII character '\xe9' in file index.py on line 11, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
没学过PY,求博主帮助。。(Centos7)
这……我也不是很懂,我也好久没看py了,本来也就是初学的水平
打开电脑第一件事,就是打开Y站,敢问博主近来身体可好~
挺好的挺好的,因为是在公司开,所以R18从来不点,营养还算跟得上
事实证明畅言手机版并不好用
没办法啊~没有更好的了
感觉用了畅言网速变慢了[/大哭]
是有点拖慢速度,正在筹备转回WP原生
[/流汗]测试下畅言
还以为有福利呢
Y站里一堆黄图,随便看。我要是发福利等下又要被腾讯管家拉黑了(虽然至今还没释放