手机版欢迎访问人人都是自媒体网站

当前位置：主页 > 体验 >

写文章不会起标题？爬取虎嗅5万篇文章告诉你

时间：2021-08-04 09:44|来源：网络整理|编辑：|点击：次

不少时候，一篇文章能否得到广泛的传播，除了文章本身实打实的质量以外，一个好的标题也至关重要。本文爬取了虎嗅网建站至今共 5 万条新闻标题内容，助你找到起文章标题的技巧与灵感。同时，分享一些值得关注的文章和作者。

写在前面：由于文中有一些超链接，无法在公众号打开，建议点击底部「阅读原文」或者复制下面的博客链接到浏览器打开，体验更好。https://www.makcyun.top/

一. 分析背景 1.1 为什么选择「虎嗅」

在众多新媒体网站中，「虎嗅」网的文章内容和质量还算不错。在「新榜」科技类公众号排名中，它位居榜单第 3 名，还是比较受欢迎的。所以选择爬取该网站的文章信息，顺便从中了解一下这几年科技互联网都出现了哪些热点信息。

写文章不会起标题？爬取虎嗅5万篇文章告诉你

「关于虎嗅」虎嗅网创办于 2012 年 5 月，是一个聚合优质创新信息与人群的新媒体平台。该平台专注于贡献原创、深度、犀利优质的商业资讯，围绕创新创业的观点进行剖析与交流。虎嗅网的核心，是关注互联网及传统产业的融合、明星公司的起落轨迹、产业潮汐的动力与趋势。

1.2 分析内容

分析虎嗅网 5 万篇文章的基本情况，包括收藏数、评论数等；

发掘最受欢迎和最不受欢迎的文章及作者；

分析文章标题形式（长度、句式）与受欢迎程度之间的关系；

展现近些年科技互联网行业的热门词汇。

1.3 分析工具

Python 3.6

pyspider

MongoDB

Matplotlib

WordCloud

Jieba

2. 数据抓取

使用 pyspider 抓取了虎嗅网的主页文章，文章抓取时期为 2012 年建站至 2018 年 11 月 1 日，共计约 5 万篇文章。抓取了 7 个字段信息：文章标题、作者、发文时间、评论数、收藏数、摘要和文章链接。

2.1 目标网站分析

这是要爬取的网页界面，可以看到是通过 AJAX 加载的。

写文章不会起标题？爬取虎嗅5万篇文章告诉你

右键打开开发者工具查看翻页规律，可以看到 URL 请求是 POST 类型，下拉到底部查看 Form Data，表单需提交参数只有 3 项。经尝试，只提交 page 参数就能成功获取页面的信息，其他两项参数无关紧要，所以构造分页爬取非常简单。

接着，切换选项卡到 Preview 和 Response 查看网页内容，可以看到数据都位于 data 字段里。total_page 为 2004，表示一共有 2004 页的文章内容，每一页有 25 篇文章，总共约 5 万篇，也就是我们要爬取的数量。

写文章不会起标题？爬取虎嗅5万篇文章告诉你

以上，我们就找到了所需内容，接下来可以开始构造爬虫，整个爬取思路比较简单。之前我们也练习过这一类 Ajax 文章的爬取，可以参考：

做 PPT 没灵感？澎湃网 1500 期信息图送给你

2.2 pyspider 介绍

和之前文章不同的是，这里我们使用一种新的工具来进行爬取，叫做：pyspider 框架。由国人 binux 大神开发，GitHub Star 数超过 12 K，足以证明它的知名度。可以说，学习爬虫不能不会使用这个框架。

网上关于这个框架的介绍和实操案例非常多，这里仅简单介绍一下。

我们之前的爬虫都是在 Sublime 、PyCharm 这种 IDE 窗口中执行的，整个爬取过程可以说是处在黑箱中，内部运行的些细节并不太清楚。而 pyspider 一大亮点就在于提供了一个可视化的 WebUI 界面，能够清楚地查看爬虫的运行情况。

写文章不会起标题？爬取虎嗅5万篇文章告诉你

pyspider 的架构主要分为 Scheduler（调度器）、Fetcher（抓取器）、Processer（处理器）三个部分。Monitor（监控器）对整个爬取过程进行监控，Result Worker（结果处理器）处理最后抓取的结果。

写文章不会起标题？爬取虎嗅5万篇文章告诉你

该框架比较容易上手，网页右边是代码区，先定义类（Class）然后在里面添加爬虫的各种方法（也可以称为函数），运行的过程会在左上方显示，左下方则是输出结果的区域。

这里，分享几个不错的教程以供参考：

官方主页：

pyspider 爬虫原理剖析：

pyspider 爬淘宝图案例实操：https://cuiqingcai.com/2652.html

安装好该框架并大概了解用法后，下面我们可以就开始爬取了。

2.3 抓取数据

CMD 命令窗口执行：pyspider all 命令，然后浏览器输入：:5000/ 就可以启动 pyspider 。

上一篇：一次即兴的爬虫经历：A站B站数据分析实战下一篇：数据也会说谎：隐藏在统计数据中的那些小把戏

热门导读

编辑推荐