谢乾坤|Kingname

@kingname

高级数据挖掘工程师，《Python 爬虫开发从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。微软最有价值专家 MVP。

加入于 2022年4月

上周的文章《一日一知：国内爬虫开发人员的未来》发布以后，很多同学私信我表示对爬虫出海很有兴趣，希望我能详细介绍一下。因此，我准备用几篇文章来介绍爬虫出海的具体做法细节和注意事项。

谢乾坤|Kingname

· 2022年04月13日 13:54

在多年写代码的过程中，我总结了不少常用的工具函数。这些工具函数有的能够实现快速重试网络请求，有的可以把任意格式的时间转成标准格式，还有的可以自动生成正则表达式。

谢乾坤|Kingname

· 2022年04月13日 13:53

开篇先抛出我的观点：希望各位做爬虫的同学，尽快，尽可能多地做海外的爬虫项目，爬海外的网站。这才是你们新的未来。

谢乾坤|Kingname

· 2022年04月04日 09:32

不是程序员的同学，别忙着走。不要看到Github就觉得这篇文章跟你无关。无论你是不是程序员，这篇文章都能帮到你。

谢乾坤|Kingname

· 2022年04月01日 09:38

在公众号粉丝群里面，经常有同学问：为什么自己的爬虫明明设置了代理，但一访问网站就能被发现。我总结了几种常见的情况。

谢乾坤|Kingname

· 2022年03月20日 15:34

作为一个站长，你是不是对爬虫不胜其烦？爬虫天天来爬，速度又快，频率又高，服务器的大量资源被白白浪费。

谢乾坤|Kingname

· 2022年03月06日 15:16

在昨天的文章《一日一技：反爬虫的极致手段，几行代码直接炸了爬虫服务器》中，我讲到了后端如何使用gzip返回极高压缩率的文件，从而瞬间卡死爬虫。

谢乾坤|Kingname

· 2022年03月06日 15:15

在以前的公众号中，我提到Selenium/Puppeteer/Pyppeteer有很多特征可以被网站检测到。于是，有些同学想到了另一个方法，就是自己写一个Chrome插件，在网站打开的时候，注入到页面中，然后通过这个注入的JavaScript代码来操作页面，获取数据。

谢乾坤|Kingname

· 2022年03月06日 15:15

- END -

文章

系列