Mac中的Python环境变量操作手册 Posted on 2018-12-06 | Comments: | Views: 将 python3 命令加入环境变量查看当前环境变量:1echo $PATH Read more »
从零构建Python爬虫代理池--下篇 Posted on 2018-08-22 | Edited on 2018-10-19 | In 技术笔记 | Comments: | Views: 上一篇我们讲了如何构建一个代理池,这一篇来讲讲如何把这个代理池无缝对接到实际应用中。 我们将实现一个下载器,把发送HTTP请求的方法封装成一个类,后续只需要继承这个类就可以直接使用方法了。 代码结构定义一个下载器 Downloader,有一个初始化方法和一个 get 方法,可以理解为定制了 HTTP ... Read more »
从零构建Python爬虫代理池--上篇 Posted on 2018-08-22 | Edited on 2018-10-19 | In 技术笔记 | Comments: | Views: 我将通过两篇文章,介绍一下如何构建一个简单可用的代理池,以及如何定制一个 get 函数来发送网页请求。对于小规模爬虫来说,这样的工具就足够了。这里说的小规模对应的场景是数据量在十万以下,且爬虫程序不需要一直运行或定时执行的。 我比较懒,就直接讲代码啦。我会把代码结构和全部代码都放出来,也会尽量把注释写详细,把结构写得简洁易懂。这样就省得再放一个 GitHub 链接了。虽然我可能还是会放一下,意思意思哈哈。 Read more »
运用抓包爬取动态加载网站--案例二 Posted on 2018-08-21 | Edited on 2018-10-19 | In 技术笔记 | Comments: | Views: 网站分析目标网站:http://www.metagene.de/ Read more »
运用抓包爬取动态加载网站--案例一 Posted on 2018-08-21 | Edited on 2018-10-19 | In 技术笔记 | Comments: | Views: 网站分析目标网站:https://ghfc.pasteur.fr/eq/ Read more »
Hexo博客备份 Posted on 2018-08-12 | Edited on 2018-10-19 | In 技术笔记 | Comments: | Views: 编辑 .gitignore 文件:在 blog 文件夹下编辑.gitignore如下12345678.DS_StoreThumbs.dbdb.json*.lognode_modules/public/.deploy*/themes/ # 主题文件夹 Read more »
Python下划线的特殊使用方法 Posted on 2018-08-11 | Edited on 2018-10-19 | In 技术笔记 | Comments: | Views: 这里的“特殊”指的是下划线出现在变量名开头或结尾的情况。 Read more »
在Linux上部署shadowsocks服务 Posted on 2018-08-07 | Edited on 2018-10-19 | In 技术笔记 | Comments: | Views: 安装 pip[适用于 CentOS/Fedora/RedHat/OpenSUSE]1sudo yum install python-setuptools && easy_install pip [适用于 Debian/Ubuntu]1sudo apt-get install python-pip Read more »
Docker入门指南 Posted on 2018-07-18 | Edited on 2018-10-19 | In 技术笔记 | Comments: | Views: 本文以使用 ubuntu 为例 搜索镜像1docker search ubuntu 找到标了 OFFICIAL 的镜像对应的名称 ubuntu。 Read more »
scrapy建立ip代理池教程 Posted on 2018-07-10 | Edited on 2018-10-19 | In 技术笔记 | Comments: | Views: 如需转载,请注明作者。 完整代码请移步GitHub。 获取ip并验证有效性 从西刺首页获取了类型为 HTTP 和 HTTPS 的ip,数量不多,此处主要是说明步骤。 获取 ip 后将有效 ip 存入 txt 文件。 该部分的代码参考了此博文。 Read more »