手机版 欢迎访问人人都是自媒体网站
最近放假闲来无事,自学Python爬虫技术,而又一年即将结束,便想回顾2018这一年产品人都在关注什么?于是爬取了人人都是产品经理的网站数据,看看能不能在其中发现一些有趣的东西。Enjoy~
人人都是产品经理网站(以下简称“人人”)是互联网产品经理和运营人的学习社群,于是选择爬取人人的网站数据用来分析。笔者爬取了2018年2月到2019年1月的文章发表和阅读数据,从作者和读者两个视角进行分析。
一、分析的技术思路前期准备主要是数据的爬取和清洗,爬取了文章标题、阅读量、评论数、收藏量、评论数和发表时间等字段。再确定分析的目的来确定问题分析的框架,最后针对框架中的问题进行数据可视化和撰写分析报告。
为了避免爬虫对网站服务器造成负担,笔者已经在上述链接网页中已经上传所有爬取的数据,大家要数据的可以直接下载,避免大规模爬取。
二、分析框架本次分析的文章时间是从2018年2月到2019年1月,从作者发表文章和读者阅读两个视角进行分析。
从爬取到的数据中选择文章标题字段,按照月份为单位,提取每个月文章标题的关键字,从而得到不同月份的文章话题,也可以从中看看2018年的互联网热点变化。(进行分析的数据截取了每个月前10高频率的关键词)
关键词频率图,按照颜色深浅(方块上的数字是频数)突出词频
从以上的统计分析图可以看出文章的话题集中度:
2018年2月-2019年1月发表的文章持续、高频率出现的关键词是,“产品经理“(产品、经理)、“设计”、“运营”、“营销”等。基本上是符合人人都是产品经理网站的定位,作为互联网产品经理和运营人的学习社区,笔者在写文章的话题方面也都是围绕着产品设计、运营、营销有关的内容话题。
在产品经理和运营所需要的技能方面,“axure”、“交互”、“数据”、“需求”和“增长”等关键词也出现在部分月份前10的高频率关键词。这些关键词基本上是偏干货类的产品和运营的核心技能相关的文章,比如“需求分析”、“交互设计”和“数据分析”等。
对于一些比较突出的关键字,比如“区块链”,在2018年初区块链技术在网络上引起了大家广泛的讨论,尽管当初区块链的讨论风极一时,但是毕竟区块链的技术尚在讨论之中,未来如何在实际产品中的运用仍然不明确,之后对区块链的讨论也少了很多。另外“滴滴”关键词也出现在2018年4月的高频词中,也是因为滴滴宣布开展外卖业务,开启和美团竞争之门。
在人人都是产品经理网站的文章中除了有关产品和运营相关内容和核心技能的分享和讨论外,作者也紧跟互联网热点问题展开讨论。
2. 大家都在什么时间发文章呢?了解了作者们都在写什么话题的文章之后,我们再看看大家都在什么时候发文章呢??
(不同颜色的面积代表星期为单位的文章数量,月份对应的高度代表月份为单位的文章数量)
在月份方面,除了在2月处于中国农历春节,文章数量明显较少,春节假期过后,文章的数量明显低提高。上半年一直到8月份,文章数量在逐步地增加,特别是7、8月份明显提升,可能是因为上班族上半年的工作压力较小,能有更多有空的时间写文章,7、8月有可能部分学生放假后也能有时间写文章,这部分因为没有网站的具体用户画像,所以没有能准确的数据说明。可能是下半年的工作压力更大,文章的数量逐渐减少。
在星期方面,看每种颜色的面积,基本上符合正常的规律,星期六、日的数量相较于工作日的数量减少。在工作日中星期一到星期五,文章的数量逐渐减少。基本上是上班和上学的作息规律相同。
3. 大家发表的文章质量如何?文章质量的指数与阅读量、收藏数、点赞量和讨论数息息相关,要称得上是一篇质量好的文章,并不能仅仅从阅读量一个维度来看;为了杜绝出现标题党的可能,我需要重新定义以一个指数来衡量文章的质量,暂且称之为“干货指数”。
干货指数=(点赞数+收藏数)/阅读量
由于“干货指数”除出来的数值最后很小,为了方便比较和观察,可视化的时候同时将数据扩大了1000倍。
上图是所有文章的“干货指数”(以下称指数)分布情况,通常情况下,指数越高代表的文章质量越高。
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP