谢乾坤|Kingname 2022年04月13日 13:54 爬虫出海Step by Step(一) 上周的文章《一日一知:国内爬虫开发人员的未来》发布以后,很多同学私信我表示对爬虫出海很有兴趣,希望我能详细介绍一下。因此,我准备用几篇文章来介绍爬虫出海的具体做法细节和注意事项。
谢乾坤|Kingname 2022年04月13日 13:53 一日一技:多个Python项目怎么调用我自己的工具函数? 在多年写代码的过程中,我总结了不少常用的工具函数。这些工具函数有的能够实现快速重试网络请求,有的可以把任意格式的时间转成标准格式,还有的可以自动生成正则表达式。
谢乾坤|Kingname 2022年04月04日 09:32 为什么我认为爬虫开发的新征途在海外市场? 开篇先抛出我的观点:希望各位做爬虫的同学,尽快,尽可能多地做海外的爬虫项目,爬海外的网站。这才是你们新的未来。 1
谢乾坤|Kingname 2022年04月01日 09:38 极其简单,加速Github Release 下载 不是程序员的同学,别忙着走。不要看到Github就觉得这篇文章跟你无关。无论你是不是程序员,这篇文章都能帮到你。
谢乾坤|Kingname 2022年03月20日 15:34 一日一技:为什么网站知道我的爬虫使用了代理? 在公众号粉丝群里面,经常有同学问:为什么自己的爬虫明明设置了代理,但一访问网站就能被发现。我总结了几种常见的情况。
谢乾坤|Kingname 2022年03月06日 15:16 一日一技:反爬虫的极致手段,几行代码直接炸了爬虫服务器 作为一个站长,你是不是对爬虫不胜其烦?爬虫天天来爬,速度又快,频率又高,服务器的大量资源被白白浪费。
谢乾坤|Kingname 2022年03月06日 15:15 一日一技:轻松排雷,爬虫让gzip炸弹变成哑炮 在昨天的文章《一日一技:反爬虫的极致手段,几行代码直接炸了爬虫服务器》中,我讲到了后端如何使用gzip返回极高压缩率的文件,从而瞬间卡死爬虫。
谢乾坤|Kingname 2022年03月06日 15:15 你以为的万能爬虫方法,其实一行代码就能识别! 在以前的公众号中,我提到Selenium/Puppeteer/Pyppeteer有很多特征可以被网站检测到。于是,有些同学想到了另一个方法,就是自己写一个Chrome插件,在网站打开的时候,注入到页面中,然后通过这个注入的JavaScript代码来操作页面,获取数据。