谢乾坤|Kingname
@kingname
高级数据挖掘工程师,《Python 爬虫开发 从入门到...
文章
谢乾坤|Kingname
·

爬虫出海Step by Step(一)

上周的文章《一日一知:国内爬虫开发人员的未来》发布以后,很多同学私信我表示对爬虫出海很有兴趣,希望我能详细介绍一下。因此,我准备用几篇文章来介绍爬虫出海的具体做法细节和注意事项。 今天我们的话题...
favorite 0
comment 0
谢乾坤|Kingname
·

一日一技:多个Python项目怎么调用我自己的工具函数?

在多年写代码的过程中,我总结了不少常用的工具函数。这些工具函数有的能够实现快速重试网络请求,有的可以把任意格式的时间转成标准格式,还有的可以自动生成正则表达式。 我把这些工具函数分别放到多个.p...
favorite 0
comment 0
谢乾坤|Kingname
·

为什么我认为爬虫开发的新征途在海外市场?

开篇先抛出我的观点:希望各位做爬虫的同学,尽快,尽可能多地做海外的爬虫项目,爬海外的网站。这才是你们新的未来。 我最近两年时间,已经没有做过任何国内网站的爬虫了,根据这两年爬海外网站的一些经验,...
favorite 0
comment 0
谢乾坤|Kingname
·

极其简单,加速Github Release 下载

不是程序员的同学,别忙着走。不要看到Github就觉得这篇文章跟你无关。无论你是不是程序员,这篇文章都能帮到你。 有一些开源软件,它的新版本是通过Github Release来发布的。你在它的官...
favorite 0
comment 0
谢乾坤|Kingname
·

一日一技:为什么网站知道我的爬虫使用了代理?

在公众号粉丝群里面,经常有同学问:为什么自己的爬虫明明设置了代理,但一访问网站就能被发现。我总结了几种常见的情况。 实际上,网站要识别你是否使用了代理,并不一定非要什么高深的反爬虫机制,也不需要...
favorite 0
comment 0
谢乾坤|Kingname
·

一日一技:反爬虫的极致手段,几行代码直接炸了爬虫服务器

作为一个站长,你是不是对爬虫不胜其烦?爬虫天天来爬,速度又快,频率又高,服务器的大量资源被白白浪费。 看这篇文章的你有福了,我们今天一起来报复一下爬虫,直接把爬虫的服务器给干死机。 本文有一个...
favorite 0
comment 0
谢乾坤|Kingname
·

一日一技:轻松排雷,爬虫让gzip炸弹变成哑炮

在昨天的文章《一日一技:反爬虫的极致手段,几行代码直接炸了爬虫服务器》中,我讲到了后端如何使用gzip返回极高压缩率的文件,从而瞬间卡死爬虫。 大家都知道我的公众号风格,要得罪讨好就两边一起得罪...
favorite 0
comment 0
谢乾坤|Kingname
·

你以为的万能爬虫方法,其实一行代码就能识别!

在以前的公众号中,我提到Selenium/Puppeteer/Pyppeteer有很多特征可以被网站检测到。于是,有些同学想到了另一个方法,就是自己写一个Chrome插件,在网站打开的时候,注入...
favorite 0
comment 0
没有更多内容。
Tags
社区准则 博客 联系 社区 状态
主题