• 550.49 KB
  • 2022-04-22 13:42:07 发布

基于大数据的用户特征分析.pdf

  • 9页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'中国科技论文在线http://www.paper.edu.cn#基于大数据的用户特征分析*武冠芳,崔鸿雁(北京邮电大学信息与通信工程学院,网络交换技术国家重点实验室,网络系统架构和融合5重点实验室,北京,100876)摘要:互联网应用到各行各业,用户在使用各种不同业务的同时产生并积累了大量的历史数据。海量用户数据中蕴藏着丰富的信息,已经成为计算机时代最宝贵的资源。应运而生的数据挖掘技术和云计算技术旨在挖掘用户大数据中蕴含的价值。用户数据中包含用户行为特10征,而用户行为通常和多种社会因素和技术参数相关,这些会影响不同场景下用户的角色及特征规律。各学科中,对一组对象的研究都是基于实测时间序列,并通过各种数学手段对其进行处理,寻找出序列变化特征、发展规律与趋势,从而对未来某时刻的状态进行估计。本文对运营商用户数据进行分析,从现有用户数据所具备的特征出发,深入挖掘用户行为规律,并通过构建时间序列分析模型,寻找用户特征相关因子,梳理出影响用户行为的单因素及多15因素,分析用户特征规律,获取用户的行为模式,从而创造更多的价值。关键词:大数据;时间序列;用户特征中图分类号:TP301.4Analysisofusercharacteristicsbasedonbigdata20WUGuanfang,CUIHongyan(InformationandCommunicationEngineeringSchool,BeijingUniversityofPostsandTelecommunications,StateKeyLab.ofNetworkingandSwitchingTechnology,KeyLab.ofNetworkSystemArchitectureConvergence,Beijing,100876)25Abstract:Ithasaccumulatedalargenumberofuserdataintheprocessoftheinfiltrationfrominternettoindustry.Vastamountofuserdatacontainsawealthofinformation,whichhasbecomethemostvaluableresourcesofthecomputerera.Dataminingtechnologyandcloudcomputingtechnologyaredesignedtotapvalueforuserdata.Userdatacontainsuserbehaviorcharacteristics,anduserbehaviorisusuallyassociatedwithavarietyofsocialfactorsandtechnicalparameters,whichwillaffectthe30user"sroleandcharacteristicsofdifferentscenarios.Ineachsubject,theresearchonagroupofobjectsismeasuredbasedontimeseries,andcarriesontheprocessingthroughmathematics,tofindoutthelawofdevelopmentandtrendofsequencevariation,andthustoestimatethefuturestateofamoment.Thispapercarriesontheanalysistotheuserdataoftheoperators,startingwithfeaturesfromtheexistinguserdata,digtheuserbehavior,andfindthefactorsrelatedtousercharacteristicsby35constructingtimeseriesmodel,sortoutthesinglefactorandmultiplefactorsaffectingconsumerbehavior.Byanalysingusercharacteristics,itcanobtainuserbehaviorpatterns,therebycreatingmorevalue.Keywords:bigdata;timeseries;usercharacteristics400引言在运营商提供的基础设施和运行网络条件下,手机等智能终端的功能日益强大,用户的需求呈现出多样性的特点,用户在使用不同业务的同时,在云端产生了大量的数据信息,通过大数据处理技术,分析用户特征规律,可以获取用户的行为模式,从而创造更多的价值。45对于企业来讲,鼓励现有的用户回访能使他们成为业务的稳定客户和贡献者。为此,所需的衡量指标包括:用户访问的平均间隔,它表明企业所提供的服务在多大程度上融入用户基金项目:国家自然基金(61201153);国家973项目基金(2012CB315805)武冠芳(1992-),女,硕士研究生,主要研究方向:数据挖掘,大数据崔鸿雁(1977-),女,副教授,主要研究方向:社会网络、业务特征挖掘、用户行为分析等-1- 中国科技论文在线http://www.paper.edu.cn[1]的日常生活;另一个指标则是不再访问的用户数。用户行为是一个广义的抽象概念,是指用户在使用业务过程中表现出来的规律。研究用户行为的特点及规律,可以预测并控制用户的行为。如果能够支配任何一种类型的行为,不管是积极的还是消极的,都有可能鼓励其他人改变他们的行为,甚至放弃其决策。因此,监5控和分析用户行为以及其随时间的演化,特别是其直接影响因素如用户流量,使用时长,发消息数等等,可以为业务使用情况以及企业决策提供极其有价值的信息。用户的不同社会生活背景、不同的行为习惯和兴趣爱好以及不同的社交群体,都将导致相应的用户行为带有个性化的特点。近来,对用户社会行为的分析得到了广泛的研究,包括[2][3][4]Facebook上的用户交互分析,活动推荐,用户活动水平分析等。10大多数基于特征的分析都涉及到确定用户角色或者通过可视化或利用一组确定的用户特征和方法来捕捉用户行为。文献[5]应用统计分析,并结合一个语义模型和规则来表示在线社区的用户行为。Sofia等人给出了一个具有动态性的特征到角色的关联规则的框架,并将语义因素考虑在内。他们定义了本体论与规则框架的概念,从而动态的,自动的计算取值范围来决定用户会被分为哪一类。文献[6]将聚类和主成分分析方法应用在用户特征分析上,[7]15对论坛用户进行角色挖掘。Ellison等人利用回归方法分析Facebook上的用户特征。类似[8]的,Barash等人使用回归来学习线性关系的特征。文献[9]提出了一种基于本体论的限制玻尔兹曼机模型用于社会网络中预测用户的行为。NhatHai等人提出自底向上的算法来学习本体论中的用户表示,然后通过扩展限制波尔兹曼机(RBMs)作为用户行为预测模型,结合用户表示、自我激励、社会影响和环境机制等参数分析用户行为。20本文采用运营商用户数据集,从现有用户数据所具备的特征出发,分析用户行为规律。研究方法的重点在于充分利用用户数据,深入挖掘用户特征规律,并通过构建时间序列分析模型,寻找用户特征相关因子。通过对数据进行抽样和统计方法挖掘,梳理出影响用户行为的单因素及多因素,获取用户行为模式,为企业决策创造更多的价值。1时间序列模型251.1时间序列的定义、特点及分类时间序列指的是在人类自然、社会科学中记录的一系列变量,有一定的时间先后顺序,往往都是按照一定的时间间隔进行记录,包含了大量历史信息。时间序列中数据的取值随着时间的变化而不同,通常是对相关指标变量在不同时间点或[10]不同时期内进行观察所得到的结果,存在前后时间上的相依性。30根据所研究问题的不同,时间序列可以分为一元时间序列和多元时间序列;离散时间序列和连续时间序列;线性时间序列和非线性时间序列;平稳时间序列和非平稳时间序列;随[11]机时间序列和确定性时间序列。1.2时间序列的表示及数字特征若对于特定的t()tTT,为一参数指标集,Yt为一随机变量,则称这一组随机变量{}Yt35为一个随机过程。对于随机过程{}Yt,对任意一个tT,Y是随机变量,它的分布函数Fy()表示为tYtFy()PY(y),称为随机过程Y的一维分布。Yttt-2- 中国科技论文在线http://www.paper.edu.cn一般地,对于任意mNtt,,,,tTY,,Y的联合分布函数为12mt1tmF(,yy,y)PY(y,,Yy),称为随机过程{}Y的m维分布。YYt12,t,Ytm12mt11tmmt[11]在时间序列分析中,常用的关于随机过程的数字特征有如下几种:i.均值函数5对于时间序列{}Yt,对任意一个tT,Yt都是一个随机变量。假设该随机变量的分布函数为Fy(),那么该序列在时刻t的均值就为YtEY()ydFy()(1)ttYtii.方差函数时间序列{}Y在时刻t的方差可以通过下式得到:t2210DY()[yEY()]dFy()(2)tttYtiii.自协方差函数对于时间序列{}Y,在两个不同的时刻t,s,YY,和为两个随机变量,他们之间的协tts方差称为时间序列{}Y的自协方差:tCovYY(,)EY[(EYY)(EY)](,)ts(3)tsttss,ts15iv.自相关函数(ACF)(,)ts(,)tsCovYY(,)(4)ts,ts(,)tt(,)ss随机过程的平稳性是指随机过程的统计特征不随时间的推移而发生变化。随机过程可以[11]分为严平稳过程和弱平稳过程。①严平稳过程20设{}Y为随机过程,m,h为任意实数,若tFYYt1,t2,Ytm(,yy12,ym)FYt1h,Yt2h,Ytmh(,yy12,ym),则称{}Yt为严格平稳过程。这一定义表明,将观测时刻tt,,,t同时往前或往后推移h步得到时刻12mtht,h,,th,在这两组时刻观测值的联合分布相同,即严格平稳过程的分布不随12m时间推移而变化。25②弱平稳过程若随机过程{}Yt的二阶矩存在,且满足EY()t,(,)ts(thsh,)(ts,0)ts,即一阶矩和二阶矩不随时间推移而变化,则称{}Yt为若平稳随机过程。1.3时间序列分析30时间序列分析的关键在于建立模型,而构建模型首先就要对模型可能涉及的时间序列特征进行分析,主要包括:(1)时间序列的相关性-3- 中国科技论文在线http://www.paper.edu.cn(2)时间序列的平稳性与非平稳性(3)时间序列的波动聚集性[11]时间序列分析主要分为四个基本步骤:(1)模型识别;(2)模型估计;(3)模型检验;(4)模型应用。具体如图1所示:收集时间序列数据模型识别判断时间序列的平稳性参数估计模型诊断不可取与检验是否可取应用5图1时间序列分析流程图2用户特征分析用户特征分析,简单来讲就是从累积的海量用户历史数据当中挖掘出用户的特征规律。用户表现出的特征与应用场景息息相关。本文所研究的用户特征是指用户使用业务所产10生的数据特征,是基于用户所使用的移动网络业务为承载。文中对运营商数据中蕴含的用户[9]特征进行分析。首先按照传统的自顶向下的设计范式,确定三个核心概念模块:社交群活动、个体活动和个性化特征。然后提取影响用户行为的核心概念和相关关系如用户使用流量情况,用户登录时长、用户发状态数、用户发消息数、用户交互数等。这三个模块可以描述如下:15个性化特征:用户固有属性,包括用户自身特征和外界环境决定的属性,前者包括用户标签、年龄、性别等;后者包括用户职业、收入、使用业务情况等。个体活动:用户自身使用业务所产生的活动,包括用户登录数、发状态数、访问次数等。社交群活动:用户彼此交互使用业务所产生的活动,主要分为离线活动和在线活动两大类,前者包括用户对该业务的支持度;后者包括用户间发送消息数、评论数、互发邮件数等。20用户行为的表示是指将表征用户行为的量(如使用流量,用户使用业务过程中产生的行为数据等)在数学意义上进行定量地刻画和描述,本文的做法是将用户行为根据某种规则建模为时间序列,根据业务分类,从时间序列的角度对其进行分析,找出用户行为特征如用户上网和流量特征、用户业务和喜好特征等。①用户上网和流量特征25上网次数、时长、流量大小、流向流向:上下行-4- 中国科技论文在线http://www.paper.edu.cn②用户业务和喜好特征用户使用的主要业务种类业务使用情况:使用时长、使用次数③其他5URL中提取的相关信息,包括微信公众号文章的阅读数、点赞数、QQ空间浏览数等场景值参数本文使用的数据集来自某城市某运营商2014年07月17日至2014年07月25日的所有城市人口的移动终端上网数据。数据格式包括:用户标识如用户手机号或者IP地址、流量(业务)类型、开始时间和结束时间、时长、上下行流量、状态码、终端IP和访问IP、源和目的10端口、上网的URL等。数据集涵盖了移动终端上网的所有业务。本文中,应用oracle数据库分析,统计了每个用户每天的数据,然后进行相关分析。以用户使用腾讯相关业务(包括QQ、微信)时所产生的数据特征为例,分析了用户使用业务所产生数据的特征规律,包括流量、时长、从URL中提取的场景参数等。15表1用户特征值表(按每天统计)用户标签个性化特征登陆总次数上午登陆次数下午登录次数登陆总时长40420619822220上行流量下行流量总流量446914537152984066个体活动特征QQ图片业务数QQ新闻业务数QQ下载业务数QQ上传业务数429992457692121175QQ游戏业务数6社交群活动特征微信朋友圈访问数微信群访问数微信好友分享数QQ商店业务数0008QQ邮箱业务数QQ群业务数00本文对用户数据进行处理,针对每个用户(用户标签以PHONE_NUMBER表示)使用腾讯相关业务(以微信和QQ业务为例),统计其每天的登陆总次数、上午登陆次数、下午登陆次数、登陆总时长、上行流量、下行流量、总流量,并从URL信息中提取出微信朋友圈访问数、微信群访问数、微信好友分享数、QQ图片业务数、QQ邮箱业务数、QQ商店业务20数、QQ游戏业务数、QQ群业务数、QQ新闻业务数、QQ下载业务数、QQ上传业务数。并进行量化标识,建立用户特征表,形成时间序列,用来表示该用户的行为。以用户“429924576”为例,其特征如表1所示(其中用户标签为PHONE_NUMBER的哈希码值,表中各字段值取自2014年07月17日的数据值)。本文着重从用户流量、使用时长以及登陆次数等方面分析用户特征规律。-5- 中国科技论文在线http://www.paper.edu.cn2.1用户使用业务流量和持续时长特征通过对每个用户的特征表分析可知,用户每天使用业务流量及持续时长是一个随机的动态变化过程,可以用随机离散非线性平稳时间序列来描述,根据式(1),针对腾讯业务,对使用业务流量及时长求其均值函数,统计用户平均每天使用业务的时长以及使用业务所产生5的流量特征,如图2所示。由图2(a)可以看出,不同用户使用QQ和微信业务所产生的流量差异较大,这可能是由不同的用户职业及偏好习惯所造成的。而由图2(b)可知,不同用户使用业务的平均时长处在一个相对一致的水平,只有极个别用户使用时长高于平均水平,这可能和用户的特殊职业相关。所以,在该运营商移动终端用户数据集下,用户平均每天使用时长大体符合均匀分布。1015(a)用户使用流量规律(b)用户使用业务的登陆时长20图2用户平均每天使用QQ、微信业务持续时长和流量综合图2(a)和图2(b),由于用户平均使用时长大致相同,而平均使用流量却有所差异,根据这一特征规律,该运营商移动终端用户可以分为两类:一是,登陆期间平均业务量较小,例如那些只是平时利用QQ和微信传输文件等资料信息或者使用QQ邮件业务,每次通信也25只是较少的流量消耗的商务型用户;二是,诸如使用QQ视频、QQ语音、QQ游戏或QQ商店等业务,每次都会产生大量业务的娱乐型用户。那么,对这两类用户,服务提供商便可进行有针对性的业务推广或用户保留方案。2.2分类用户的登陆时长和登陆次数特征由上面的讨论可知,原始用户数据集中存在一些异常值用户,使得原始数据集比较粗糙。30所以,本文使用分类模型,对用户群体特征进行建模,按照用户记录数,对原始数据集进行处理,剔除了记录数过少(小于1500)以及记录有缺失的用户,剩余用户每天都有使用业务的-6- 中国科技论文在线http://www.paper.edu.cn图3用户记录数的等级划分数据记录,并将这些用户按记录数分为7个等级,分别代表其使用程度,各个等级所占的比例如图3所示,图中的百分比代表该区间内用户占所有用户的比例,图例中记录数区间5从上到下分别记为C1到C7。由图3可知,数据集中用户记录数较高的用户所占比例还是比较大的。针对这7类用户,本文分别统计了每一类用户每天使用业务时长的平均值。图4给出了每类用户每天的登录时长和登陆次数随时间的变化关系。从图中可以看出,C3和C4类用户每天使用业务持续时长随时间的推移有较强下降的趋势,并且由图4(b)可知该类用户平均10每天的登陆次数也偏低,这两类用户业务行为不积极,需要进行用户保留。另外,C5和C7类用户使用业务的时长是随时间呈上升的趋势,由图3可知其记录数也是比较高的,而且用户数占到了总用户的一半以上,所以如果对这部分用户做有针对性的用户激励,效果是最明显的。C2和C6类用户每天平均使用时长相对稳定并且处于较高的水平,其登录次数也较高,属于正常使用用户。C1类用户其使用业务时间处于偏低的水平,并且变化趋势不明显。15另外,从图4中可以看出,C3和C7类用户在周末使用业务时长和登陆次数反而降低,则他们很有可能是我们上述分类的第一类,即,非工作日期间使用率变低,可能属于商务人士;而其他类别的用户更多的是周末使用量偏大,属于娱乐型用户。结合图4(a)和图4(b)的规律,可以得出,该运营商移动终端用户使用业务的时长和登陆次数的变化方向趋势是相同的。20-7- 中国科技论文在线http://www.paper.edu.cn(a)各个类别内用户平均登录时长随时间的变化关(b)各个类别内用户平均登陆次数随时间的变化关系图4分类用户平均登陆时长和平均登陆次数的变化关系3用户特征规律5根据上文对用户特征的分析,我们发现本文使用的运营商移动终端用户数据集的一些特征规律,总结为以下几点:(1)根据用户使用业务所表现出来的规律特征,该运营商移动终端用户大致分为两类:一是娱乐型用户,其特点表现为登陆频繁,并且平均业务量较高;二是商务型用户,其特点是只在有需要的时候登陆,每次产生的业务数据也较少。10(2)用户平均每天使用时长服从均匀分布,即平均每天使用时长处于一个稳定的水平,不随时间和用户种类的变化而变化。(3)用户平均每天使用业务的时长和登陆次数同向变化。(4)商务型用户在周末使用业务量少;而娱乐型用户在周末以及每天的傍晚和深夜使用业务比较频繁。15综上,本文所讨论的运营商移动终端用户数据集,主要包括商务型和娱乐型用户两大类,并且两类用户在一天中使用业务的时间点以及工作日和周末使用业务的规律有所不同。但是,两类用户平均每天使用业务的总的持续时间是均匀变化的,不随用户种类和时间的变化而变化。服务提供商也可以根据不同类型用户的特征来进行有针对性的用户保留和激励措施,减20少损失,从而创造更多的价值。4结论将表征用户行为的量在数学意义上进行定量的刻画和描述,目前一种比较流行的做法是将用户行为根据某种规律建模为时间序列,然后从时间序列的角度对其进行相关分析。本文正是利用了这一思想。在大数据背景下,用户使用不同业务的同时产生了海量的行为历史数25据,应用数据挖掘方法和云计算技术可以从这些数据中提取有关用户的行为信息,这在以用户资源和数据为最大价值的今天,对企业的运营和业务支撑是十分有利的。本文对分析了运营商用户数据的特征规律。运行商用户使用业务所产生的行为数据可以建模为随机离散非线性平稳时间序列,根据时间序列分析模型,本文对用户使用腾讯业务的时长和登陆次数进行了研究分析,并应用分类模型按照记录数对用户进行分类,然后按类别-8- 中国科技论文在线http://www.paper.edu.cn分析用户使用业务的规律。监控和分析用户流量、使用时长等用户行为的直接影响因素以及其随时间的演化,可以预测并控制用户的行为,为业务使用情况以及企业决策提供极其有价值的信息。致谢5本研究受到了国家自然基金(编号61201153)、国家973项目基金(编号2012CB315805)、国家重点科技项目(编号2010ZX03004002-02)的支持。[参考文献](References)[1]RanzatoMA.,PoultneyC.,ChopraS.,etal.EfficientLearningofSparseRepresentationswithan10Energy-BasedModel[J].AdvancesinNeuralInformationProcessingSystems,2006:1137-1144.[2]ViswanathB.,MisloveA.,ChaM.,etal.Ontheevolutionofuserinteractioninfacebook[J].InWOSN"09,2009:37-42.[3]LermanK.,IntagornS.,KangJ.-K.,etal.Usingproximitytopredictactivityinsocialnetworks[J].InWWW"12Companion,2012:555-556.15[4]ZhuY.,ZhongE.,PanS.,etal.Predictinguseractivitylevelinsocialnetworks[J].InCIKM"13,2013:159-168.[5]SofiaA.,MatthewR.,andHarithA.ModellingandAnalysisofUserBehaviourinOnlineCommunities[J].SemanticWeb-iswc-internationalSemanticWebConference.2011(7031):35-50.[6]JeffreyC.,andConorH.DecomposingDiscussionForumsusingUserRoles[J].ProcoftheWebScienceConference,2012.20[7]EllisonN.B.,SteinfieldC.,andLampeC.Thebenefitsoffacebook"friends:"socialcapitalandcollegestudents"useofonlinesocialnetworksites[J].JournalofComputer-MediatedCommunication,2007,12(4).[8]BarashV.D.,SmithM.,GetoorL.,etal.Distinguishingknowledgevssocialcapitalinsocialmediawithrolesandcontext[J].InProceedingsoftheICWSM09,May2009.[9]NhatHaiP.,DejingD.,HaoW.,etal.Ontology-basedDeepLearningforHumanBehaviorPredictioninHealth25SocialNetworks[J].AcmConferenceonBioinformatics,2015:433-442.[10]张善文,雷英杰,冯有前.MATLAB在时间序列分析中的应用[J].西安电子科技大学出版社,2007:2-4.[11]史代敏,谢小燕.应用时间序列分析[M].北京:高等教育出版社,2011.06.-9-'