眼前之主流爬虫手段是用Python编程,Python的强毋庸置疑,但新家学习Python还是待一两单月日之。有无发一些双重简单的爬取数据方式呢?答案是有,DataCastle为您准备了如下小器,对于每个微器而仅仅待花费十几分钟时间,跟着自己之手续走相同所有就是足以控制它啦~
一、Microsoft Excel
率先让大家一个用Excel爬取多少的方法,这里用的Microsoft Excel
2013版本,下面手把手开始教学~
(1)新建Excel,打开它,如下图所示
(2)点击“数据”——“自网站”
(3)在弹出的对话框中输入目标网址,这里因全国实时空气质量网站否条例,点击转至,再导入
选导入位置,确定
(4)结果如下图所著,怎么样,是不是深赞?
(5)如果只要实时更新数据,可以当“数据”——“全部翻新”——“连接性”中开展安装,输入更新频率即可
二、Google Sheet
使用Google
Sheet爬取多少前,要保证三碰:使用Chrome浏览器、拥有Google账号、电脑早已翻墙。如果立即三只规范有所了的话,下面我们尽管从头吧~
(1)打开Google
Sheet网站:
(2)在首页上点击“转到Google表格”,然后登录自己之账号,可以观看如下界面,再点击“+”创建新的报表
新建的表如下:
(3)打开要爬取的靶子网站,一个全国实时空气质量网站
,目标网站及之表格结构要下图所示
(4)回到Google sheet页面,使用函数=IMPORTHTML(网址, 查询,
索引),“网址”就是要是爬取数据的靶子网站,“查询”中输入“list”或“table”,这个在数量的具体组织类型,“索引”填阿拉伯数字,从1方始,对许正在网站受到定义的啦一样份报表或列表
于咱们设爬取的网站,我们以Google
sheet的A1单元格中输入函数=IMPORTHTML(“http://www.pm25.in/rank”,”table航天科技”,1),回车后便爬得多少啦
(5)将爬取好之表存到地头
凡是匪是感到超级简单?
三、you-get
即时是一个程序员基于python
3开发的型,已经当github上面开源,支持64个网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总的君能体悟的网站还来!
还有一个伪科技的地方,即使是榜及无底网站,当你输入链接,程序吗会蒙你想要产充斥什么,然后帮你下载。当然you-get要以python3条件下进行安装,用pip安装好后,在巅峰输入“you
get+你想生充斥资源的链接”就足以等着藏资源了。
此地让一个you-get的汉语使用说明,按照说明上勾的以步骤操作就足以啊。
未完待续……以后DataCastle还会延续添部分简短好用的爬虫小器的,记得支持一下啊~