手机版 欢迎访问人人都是自媒体网站
本次对话题进行分析的重点在于:
男、女性用户的话题关注差异
话题频繁项集和关联规则挖掘
用Word2vec量化话题之间的关联性
分析部分 1. 话题分析在社会化媒体中,话题是指一个有影响力的事件或者活动。而在知乎上,话题是由内容(问题和回答)和人(提问者、回答者和关注者)构成的,而且话题之间存在着父子级关系。
知乎上的“话题”有别于其他社会化媒体上的“标签”,并非由用户自由创建、自由使用。如果话题被合理的添加到问题上,就意味着根据社区的共识和使用习惯,一些可能相似的内容被联系在了一起。
本质上,话题的作用是连接人和问题,它描述的是一个领域。一类有共同主题或属性的问题可以归类到一个话题下。这些基于话题的联系和分组能够帮助用户方便、快速的发现某个主题的内容。
在知乎这个社会化媒体上,话题是用户活动的基础,用户的信息创造、传播、组织必须依赖于话题。因此,对知乎上“数据分析”相关用户群体的话题偏好分析很有必要,它可以从宏观上把握用户的内容需求。
(1)男、女性用户的话题关注差异
经统计,女性关注的话题数量有28727个,男性用户关注的话题数量是 35774个,从关注话题丰富度上来看,男性用户明显要多于女性用户。
二者关注话题的交并集情况如下所示:
由上图可见,男女性用户共同关注的话题较多,数量为22396个,分别占到女性话题关注数的78%和男性话题关注数的63%。总体上看,这部分人群在话题偏好上有较强的相似性。
现在由表及里,从TOP 30热门话题来看男女性用户在话题关注偏好上的异同。
先看看不区分性别下的TOP30热门关注话题:
从上图可以看到,“职业发展”、“自然科学”、“数据分析”、“电影”、“心理学”、“健身”、“生活”、“文学”、“互联网”和“投资”等是总体上排名靠前的话题。
再来看看女性用户TOP 30的热门关注话题:
其中,“职业发展”、“心理学”、“电影”、“数据分析”、“健身”、“自然科学”、“生活”、“文学”、“旅行”和“美食”是女性群体较为关注的话题。
最后,看看男性用户较为关注的TOP 30热门话题:
其中,“自然科学”、“数据分析”、“电影”、“职业发展”、“互联网”、“健身”、“心理学”、“生活”、“投资”、“历史”是男性用户较为关注的话题。
上面是按性别单独来分析的,但数据分析只有在“求同存异”时才能发现一些有意思的信息。现在用韦恩图展示一下男女性用户关注话题TOP30的交集和差集(男女性用户独有的关注话题):
从TOP30关注话题的差集来看,女性用户的关注话题反映出她们精致、居家的特点,而男性用户反映出他们对技术和理性的偏爱。同时,二者的交集反映出他们对于自身职业发展的重视和对生活的的热爱。
(2)话题频繁项集和关联规则挖掘
做数据分析的小伙伴几乎都听说过“啤酒与尿布”的故事 :在超市的订单记录中,啤酒和尿布总是频繁共同出现在同一条订单记录里,如果把啤酒和尿布放在一起售卖就会产生较好的收益。
那么,细想推理一下:数据分析相关的用户会关注一连串的话题,这些话题之间是否存在一定程度的关联关系?
按我们的常识来看,会的。比如,笔者关注“数据挖掘”,那么,“数据分析”、“大数据”、“机器学习”也很有可能成为笔者倾向于关注的话题,这种情况倒是显而易见。
但是,笔者还想挖掘另一类的话题关联性,比如,关注“数据分析”话题的用户还会关注哪些跨领域的话题,比如“美食”、“星座”、“哲学”等,这些话题会超出我们的意料。但对于内容运营者来说是福音,因为在数据分析相关的文章里杂糅这部分轻松愉悦的“辅料”,会增强内容的可读性和趣味性,促进内容的自发传播。
这就引出了本文的主题之一 ——话题关联度挖掘。
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP