网站分析
目标网站:http://www.metagene.de/
这是一个描述疾病、症状与基因的知识库。
要收集的数据是左边的每一个疾病条目对应的diseases(疾病详情),symptoms(症状),lab(实验数据),normal(正常样本数据),literature(相关文献)的全部信息。
点击右边第二栏的”symptoms”,url 没有变化,且网页加载了一会后才显示信息。如下图:
为啥会这样?
再点几个试试…
url 都没有变化,后来我发现更神奇的是,点击页面上方导航栏的其他位置,url也是没有变化的:
可以断言,该网站是动态加载数据的。
想通过传统的方式(Selenium,Beautiful Soup)来定位和提取数据也是比较困难的,我当时爬的时候也是踩了一路坑,比如每次刷新页面,元素的id是会改变的,而且需要通过下拉刷新来获取新增的元素节点,等等。
换一种思路,尝试用抓包,就柳暗花明了。
打开 Chrome 控制台,切换到 Network 选项,刷新页面,点击上方导航栏的 diseases,就可以定位到动态加载的数据块来源:
找到该HTTP请求的资源位置,只复制红色部分,后面是一串随机生成的id,加不加是一样的。将该 url 粘贴到 Chrome 地址栏,回车,即可得到:
密密麻麻的 json 数据,简直有点密集恐惧症。不过总算获得我们想要的数据了。
接下来分别点击每个疾病条目的相应信息,观察控制台的网络变化,就可以找到每一部分(diseases, symptoms, lab, normal, literature)的 api 接口了。
是不是超级方便?
下一步
api 有了,剩下的就是对 json 数据进行结构化整理,变成我们想要的样子了。因为处理起来有不少细节问题,整个项目代码也比较多,就不展开了~
需要注意的是,有的 json 数据格式不规范,需要使用正则表达式进行修正。偶尔接口返回的数据有问题,这时候重发几次请求,或者延长连接的超时时间就可以解决了。
抓包讲了两个案例,也差不多啦。(其实是因为我就做过这两个哈哈)
这两个网站虽然都属于医疗方面,但是跟其他网站的分析思路是一致的,相信各位可以举一反三。