网络用户行为挖掘

2024-05-14

网络用户行为挖掘(精选9篇)

网络用户行为挖掘 第1篇

随着计算机网络的迅速发展, 计算机网络已经成为科研、学习、娱乐等不可缺少的一部分[1]。校园网作为国内各大院校学生的网络用户聚集地, 而在日常管理维护中, 学校中心数据机房会将用户的网络行为记录在数据库中, 随着大数据时代的来临, 人们开始关注大数据集中隐含的潜在有用信息, 因此, 如何利用现代信息技术分析校园用户网络行为已经成为校园网管理者密切关注的问题。

1 数据挖掘概述

数据挖掘是现代化信息技术的产物, 它融合了数据结构、统计学、数据库原理、算法设计等多门专业学科知识, 面对如今的大数据时代, 数据挖掘技术面对庞大的历史数据可以根据不同的用户需求进行数据分类、数据关联等统计分析。对于校园网络, 尽管与开放性网络相比有着局限的受众群体, 但在中国尤其一些高校分布较多的省市, 校园网的用户量依然可观。在用户数据信息管理方面, 数据挖掘技术可以科学有效地提供辅助, 其挖掘过程可以分为数据采集, 即采集特定时间段、特定用户的网络信息, 其中包括家属区、学生公寓的浏览数据和流量数据;数据库建立, 即将获取的信息数据分类录入, 期间剔除重复无用信息以便提高数据分析效率;数据挖掘, 即按照选择的算法设置相应的参数, 通过参数的合理设定去除模糊、含有噪音的数据, 提高挖掘结果的纯度;结果分析, 即根据得出的数据结果总结不同类型的用户的网络行为习惯。数据挖掘技术根据所得结论为校园网络管理可以提供可靠有效的参考数据, 通过针对校园不同区域的流量控制及虚拟局域网设定, 合理地提高整体校园的网络质量[2]。

2 校园网用户分析

通过采集网络用户信息可以建立分析数据库, 用户信息主要包含用户类型、所在区域、时段、浏览数据、流量数据、实时数据等, 根据数据挖掘结果, 可以发现校园网用户具有以下几个特征。

2.1 用户基数大

高校内部校园网用户主要是学生与教职工, 以陕中医为例, 教职工与在校学生超过一万两千人, 校园中所有楼宇放置接入交换机与无线AP设备, 加上用户上网设备多样化, 这不仅增加了用户接入端设备参数要求, 也对中心机房汇聚、核心设备的技术参数有了更高的标准。

2.2 网络行为多样性

因为校园网用户基数庞大, 不同用户有着各自的网络需求, 也就造成了他们的网络行为多样化[3]。通常而言, 校园网络主要目的是为学生学习提供丰富的可利用资源, 学生可以通过校园资源平台复习上传的精品课程要点, 也可以通过在线图书馆检索收录的参考文献。然而根据实际流量统计, 绝大多数学生倾向于网络娱乐行为, 其中链接视频、新闻、游戏、P2P下载占绝大多数, 尤其在晚高峰期间校园网络负载达到峰值。

2.3 网络安全意识低

在校园网使用过程中, 大部分用户对于网络安全概念模糊, 个人计算机安全防护软件设置缺失, 由于对钓鱼、木马等类型网页、软件分辨能力低, 致使用户在使用校园网过程中会造成个人信息泄露、财产受损等, 严重的会感染病毒造成校园网络瘫痪。所以校园网管理部门, 在做好校园内网与外网防护工作的同时, 也应重视因校园网用户不当的网络行为可能造成的网络安全问题。

3 校园网的合理化管理

通过对校园网用户网络行为数据挖掘的结果分析, 发现校园网用户在校园内部基数庞大, 且不同时段不同区域的用户对网络的使用具有多样化需求, 与此同时, 由于大多数用户缺少相关计算机网络知识致使对网络安全意识淡薄从而造成个人损失。因此, 在完善网络管理部门现有管理策略的同时, 也要根据实际的用户网络行为制定合理化措施。

3.1 特定区域流量时段控制

目前, 陕中医校园网分布区域主要有行政楼、教学楼、图书馆、学生公寓、家属楼。周内工作时段教职工、学生白天主要集中在工作学习区域, 网络管理部门需要提高行政教学楼、图书馆的带宽速率, 为教职工工作、学生查找文献学习提供便利, 且同一时段对学生公寓、家属楼区域进行宽带限速。周末休息时段, 由于教职工、学生大多集中在公寓、家属楼区域, 流量控制策略应当倾向于提高该区域的用户上网速率。

3.2 调整无线网络覆盖范围

根据数据挖掘结果, 无线AP接入设备在学生主活动区域负载较高, 其中包括图书馆、学生公寓、教学楼, 连接设备类型以手机、平板电脑为主, 说明了网络用户倾向于移动上网设备。在设备安置数量上, 可以适当减少不活跃区域的AP数, 其中不活跃区域为体育馆、操场、会展中心、医史展览馆、食堂等, 将更多的无线接入设备安装在学生主活动区域。通过对网络用户时段属性挖掘分析, 教学楼中的无线AP设备常在上课期间处于高负载状态, 且信息数据大多数属于社交软件和娱乐信息, 因此可以适当减少教学楼每层无线接入设备数量且将常用娱乐软件信息端口关闭, 使学生可以专注于课堂时间。

3.3 网络安全管理工作

重视网络安全是校园网管理部门维护校园网络服务的首要前提, 将网络安全牢固树立在用户意识中是避免个人损失的重要保障[4]。由于陕中医学生、教职工对计算机网络知识匮乏, 因此管理部门应当做好以下工作完善校园网管理模式提高网络安全。首先在部门首页及账号登录界面标识网络安全教育宣传;其次在公共资源平台上传可供用户下载的安全防护软件保障个人计算机安全使用, 定期更新服务器中对不良信息网站的禁止访问列表;最后严格设定不同类型用户在不同区域的使用权限, 禁止学生账号、家属区账号、行政办公账号跨区域使用。

4 结束语

在如今的互联网时代, 网络对于丰富在校大学生学习、娱乐等方面起到了决定性作用, 利用数据挖掘技术对校园网用户网络行为进行挖掘分析, 完善管理部门制定的网络管理措施可以极大地提高校园网运行的安全性和稳定性。

摘要:校园网作为在校师生学习办公的现代化信息工具, 已经成为使用者日常生活中不可缺少的部分。文章通过利用数据挖掘技术分析了校园网用户的网络行为特点, 为校园网络部门在日常管理工作中从优化校园网络服务、保障网络安全等角度考虑, 合理地提出和完善了相关的管理措施。

关键词:校园网,数据挖掘,网络行为,网络安全

参考文献

[1]李卿.数据挖掘在校园网日志分析中的应用研究[J].软件导刊, 2011, 10 (12) :168-169.

[2]陈诚.基于数据挖掘的计算机网络流量控制策略[J].广西教育:职业与高等教育版, 2014 (7) :187-189.

[3]杨顺敏.浅谈高校校园网安全风险及解决方案[J].黔南民族医专学报, 2015 (3) :214-215.

网络用户行为挖掘 第2篇

摘 要:本文分析了P2P网络借贷运行模式和特点,以及目前国内外P2P网络借贷的主要发展情况,指出该种网络借贷平台的借贷实质上是一种信用借贷,信用保障了该平台的正常运行。因此,本文着重从考察用户行为特征的角度,针对性构建P2P网络借贷平台信用评级体系,并通过问卷调查和聚类分析方法分析了影响放款人和借款人行为特征的关键因素,对P2P网络借贷平台信用评级体系进行了经验实证。

关键词:P2P网络借贷平台;信用体系;用户行为规律

一、引言

伴随着科学技术的飞速发展,现代互联网技术的全面普及已成为不可抵挡的趋势。根据中国互联网络信息中心的数据显示,截至2012年12月31日,我国网民数量已达到了5.64亿,手机网民数达到4.2亿,网站数为268万,域名数达到1341万。由此可见,依托于互联网技术,信息将会在低成本的基础上得到迅速的传播和更全面的覆盖。

网络借贷平台也是在此基础上得到确立并进行发展的。在网络借贷中,参与用户通过互联网技术彼此评估、筛选、最终确立并完成借贷交易,交易过程中,时时体现着迅速、方便、快捷,还可以显著降低交易双方的成本。并且,网络借贷对于解决小额信贷需求难以满足的现状上具有显著作用。它可以为不断扩大的小型企业、创业学生、个体商户等群体提供资金,以供其进行资金周转、获得发展,弥补了该群体由于不具备商业银行基于其风险控制和获利的要求而难以获得资金的情况。目前,在网络借贷平台中P2P网络借贷就是极具代表性的一种模式。

二、P2P网络借贷平台介绍

(一)P2P网络借贷介绍

P2P网络借贷(全称Peer-to-Peer lending)是基于互联网技术进行个人对个人借贷的一种新型模式。P2P网络借贷平台作为第三方即中介为放款人和借款人提供交易场所,对借贷交易的进行提供各种方面的支持,并收取交易双方管理和相关手续费用。在P2P借贷平台上,有资金需求的借款人发布其借款要求和真实的个人信息,而有投资意向的放款人通过考察、分析网站中所提供的关于借款人借款额度、信用等级、资产实力、资金运营能力以及未来还款的可能性等指标,以竞拍的方式确定利率水平,通过信用贷款的方式向借款人提供资金。

P2P网络借贷主要是针对小型和短期的资金借贷,为融资难度大的中小型企业、初次创业者或者急需资金者筹措和提供资金,对金融借贷体系进行了补充和完善。据有关数据,截至2012年底中小微企业占P2P网络借贷平台客户的81%。基于P2P借贷平台,可以将闲置的资金利用起来借给信用等级高的借款者,这有助于社会资源流动起来,趋于合理配制。

(二)P2P网络借贷具有以下特点

1、交易信息直观、透明。参与交易的双方可以在P2P借贷平台上获得对方的各种真实资料,如放款人和借款人的真实身份、信用等级以及借款人所借资金的数额和借款用途等,还可通过网站公布的借款人还款记录监督借贷交易的进程,提高了放款人资金回收的安全可靠性。

2、参与主体限制条件少。任何具有借款需求或能提供资金的人都可以成为P2P网络借贷平台的参与者,该平台对交易金额的限制较少,可以更灵活有效地配置社会资金。交易对象主要是那些难以满足商业银行贷款信用、资质条件考核的中小企业或中低收入人群,为他们提供资金以满足资金周转、创业等需求。

3、借贷交易具有高效率。P2P信贷平台中交易的进行主要依据放款人对借款人信用的考察、评估和决策。不像在商业银行贷款中需要提供抵押担保,该平台中借款人通过其信用资质获得贷款。同时基于先进的互联网技术,使得交易过程操作过程灵活、简便、易于掌握。这种借贷模式的效率远远高于传统的商业银行借贷效率。

以上特点使P2P网络信贷平台成为现代信贷模式中的必不可少补充,弥补了传统借贷模式的不足,积极缓解了日趋活跃的中小企业和弱势群体借款问题,满足了社会各层群体的借款需求,提高了社会资源的流动性,将社会闲散资金有效利用起来创造社会价值,进而推动了经济快速发展。

(三)P2P网络借贷平台国内外发展概况

1、国外发展情况。目前,P2P 借贷平台市场发展迅速,已逐渐成为传统金融借贷模式的竞争者。规模最大的就是2006年在美国成立的Prosper,其借贷金融已经达到了1.7 亿美元。Prosper作为借贷交易中介,以向交易双方收取服务费而获得利润。在该种模式中,借款人通过Prosper关于其身份、信用和借款期限的评估后,以其愿意承担的最高利率提出贷款需求,而后由不同风险偏好的放款人进行竞拍,最终由借款人选择最佳对象完成借贷交易。为防范信用风险和更针对化地确定贷款利率,Prosper 借贷平台还对所有提供资料的借款人自动划分了信用等级,信誉度由高到低分别为:AA、A、B、C、D、E 和HR级,以此来规避信用风险、提高交易效率。不同的信用等级有不同的贷款利率和预期损失率与之相对应。

2、国内发展现状。我国也顺应时代潮流,在小微企业主借款需求迫切的条件下,国内P2P行业飞速增长,涌现了多家P2P网络借贷平台,如拍拍贷、宜信、红岭创投等均获得较快发展。据安信证券报告不完全统计,我国的网络信贷平台已经超过300家,2012年以来整个网络信贷行业贷款成交量高达200亿元。其中最具代表性、规模最大的就是2007年在上海建立的“拍拍贷”,该运行模式主要是模仿了美国的Prosper平台。几年来,其运营交易量累计达到4亿元,累计放款人120万,借款人超过4万。目前拍拍贷的月交易量在4000万左右,最高贷款额度可达50万元。根据长城证券的分析报告显示,2012年拍拍贷线上交易额突破1.95亿元,约是2010年、2011年两年总和(约1.01亿元)的2倍,2012年全年共计成交交易19729笔,实现了770万元的管理费收入。在风险防范上,拍拍贷平台给出借款人的信用等级供放款人自行考核、决定。拍拍贷一方面在“全国公民身份信息系统(NCIIS)”的基础上进行精确的身份确认,另一方面,通过网络借贷交易参与对象之间互相做出的信用评价结果使信用系统相互补充。

三、P2P 网络借贷平台信用体制的构建

(一)信用对P2P网络借贷运行的重要性

虽然P2P 网络平台具有参与主体限制较少、门槛较低等特点,但这也往往增大了基于P2P网络借贷平台进行交易的风险,其中主要指由于信息不对称造成的信用风险。P2P网络借贷模式是在真实、完善的客户信用体系基础上得以运行的,该平台中的贷款方式是信用贷款。相比国外,目前我国征信体系建设不健全、P2P网络借贷平台发展不完善,在交易过程中只能依靠借款人自己提供的相关信息来评估其身份、信用及经营管理能力的大小,无法获得准确的、权威的借款人信用等级,这样就易出现借款人身份虚假、借款用途虚假或借款用于偿还坏账等这类欺骗、违约和信息不对称的现象,使得放款人资金回收可能性降低,需要承担较大的信用和违约风险。因此可以看出,信用限制了P2P网络借贷模式的运行,制约了P2P 网络借贷模式的发展。考虑到信用风险,目前国内借贷平台已经从单一的贷款平台向VC股权投资到小微企业贷款一条龙服务进行转变。红岭创投创始人周世平指出“线上以贷款为主,线下以投资为主,既提供借贷又提供股权融资,线上业务和线下业务可以相互提供客户”。

因此,为了让P2P网络借贷平台在经济发展中发挥其举足轻重的作用,更好地促进社会资源的高效配置,必须尽可能地防范和减少信用风险,建立P2P网络借贷平台信用体制。提高交易过程中信息的可靠性,保障资金安全性,建立一个能使客户放心的安全、高效的交易平台,从而使P2P网络借贷行业获得更好地发展,为客户提供更优质的服务,最终实现双赢。

(二)P2P借贷平台信用体系构建

1、充分发挥网络透明的作用,调动用户彼此进行信用评估,并在网络上纰漏违约信息。

2、完善P2P借贷平台的认证和审核环节。借助“全国公民身份信息系统(NCIIS)”权威核实借款人所有能证明身份的信息。要求借款者提供证件扫描图片、资产证明文件、联系方式信息、借款记录等信息完善其个人实名信用账户,同时借贷平台要评估借款人的资金运营能力以及是否具有不诚信行为。最终对应于平台的信用等级标准,以供放款人衡量。

3、建立款项追踪机制。让放款人可以随时了解借款人运用款项的进展情况,监控其还款进度,一方面方便交易双方进行交流,避免了信息不对称等不诚信的行为,另一方面可以在借款人有违约征兆时,提前做出对策。

4、建立利率奖励和黑名单惩罚机制。对于信用等级高的借款人可以适当给予借款利率优惠,以此来激励借款人提供真实信息,做到诚实守信。在合法的基础上建立黑名单专栏,曝光逾期未归还贷款借款者的姓名、证件图、联系方式、资产证明文件等所有真实个人信息。

5、将P2P网络借贷平台信用体系与整个社会信用体系相连接。P2P的信用体系是以整个社会信用体制为依托的,因此要建立健全社会信用体系,与网络借贷信用体系一道,共同组成全面、可靠的征信系统。

四、用户行为对P2P借贷平台信用体系构建的影响

(一)P2P网络借贷用户行为

我们知道,P2P网络借贷就是借贷放款人和借款人利用互联网技术,进行资金的供需匹配。由于考虑到风险及P2P网络借贷平台自身特点,进行交易的一般为小额贷款,且属于信用贷款。用户选择P2P网络借贷平台时,倾向于那些发展成熟、社会舆论良好、技术支持完善同时具有相关法律法规进行规范的网站,防止用户的个人信息遭到泄露,进行安全交易。

1、放款人行为特征分析。P2P借贷平台满足了拥有闲置资金的人群,他们可以理性地以高于银行存款利率的回报率将自有资金分散成小额贷款进行投资,并从中赚取利息、获得收益。由于在网络借贷中,放款人所承担的风险要大于借款人所承担的风险,如果发生借款人蓄意违约,放款人在超过还款期限时经过网络借贷平台催缴后还未回收贷款的情况,那么放款人只能自己承担该笔损失。所以这里的理性是指放款人在进行投资决策之前会全面分析、综合评估影响其资金回报率的因素,其中包括:借款人的信用等级、借款目的、借款金额、借款期限、还款方式、还款能力及还款记录等。具体来说,借款人提供的信息质量会对放款人制定决策产生举足轻重的影响,那些提供信息详细、借款记录中及时还款、信用等级高、口碑好的借款人使放款人承担的风险较小,往往会受到放款人的青睐,相比其他借款人体现了优越性,因此对借款人行为,及信用评判显得极为重要。

2、借款人行为特征分析。类似于其他形式的借贷行为,P2P网络借贷中,借款人承担的风险远远小于放款人,所以影响其借款行为的主要因素包括:借款成功率和借款所要花费的时间和成本,因为大部分借款人进行借款行为是因为资金短缺急需周转,他们需要P2P借贷平台提供高效及时的服务。

(二)用户行为特征对信用评级体系影响

1、放款人所衡量风险指标对P2P网络借贷平台信用体系构建的影响。由前知,P2P网络借贷平台交易成功的关键在于放款人借助于平台对借款人信用等级和自身对借款人信用评估,为了进一步了解影响评估的因素,我们做了一下有关的调查。

(1)问卷设计。对上文提出的安全技术支持、还款能力、信用等级、借款所需时间、借款目的、借款期限、借款金额及利率、还款记录、网站口碑等考核指标分别设置相应的问题进行调查,共同组成调查问卷。通过完全同意、同意、无所谓、不同意、完全不同意,赋予5、4、3、2、1进行代表。然后运用统计学的方法对收回的调查问卷进行整理、数据提取和统计分析,进而考核构建P2P网络借贷平台信用体系的各种要素,并按照重要性进行分类。

(2)调查对象。本次问卷调查将西安电子科技大学的学生作为主要调查对象,主要是因为大学生更容易理解电子商务的运作模式,掌握网络借贷平台的操作步骤;同时P2P网络借贷可以满足大学生创业者小额借款的需求,成为该平台的参与主体;另外P2P网络借贷模式作为新型的信贷模式,在金融体系中尚未普遍展开,参与的对象还较少。

(3)问卷回收与基本信息统计。本次问卷调查总共发出200份问卷,回收问卷182份。去掉信息未填写完整和明显提供错误信息的调查问卷,有效问卷总共175份,有效回收率为87.5%。

调查问卷调查的基本数据如表1。从表1可以得出以下结论:调查对象基本为24岁以下,月生活费上在0-1000元的比例占93.1%;所处地区城镇地区占多数,是网上借贷的潜在主力。

(4)各指标重要性分析。将回收的调查问卷进行整理,分析计算各个指标所得分数并进行平均。若某一指标的分数相较于平均值越大,则说明该指标对放款人借贷行为产生的影响越大,应该成为构建P2P网络借贷平台信用体系的重要因素;如果其平均分数相较于平均值越小,则说明该指标对放款人借贷行为产生的影响越小,不构成P2P网络借贷平台信用体系的主要因素。通过对调查问卷所反映的数据进行整理分析,得出各个指标的平均分数,如表2所示。由表2可以看出,影响放款人行为特征的各项指标平均得分均较高,在建立P2P网络借贷平台信用体系中都是重要的影响因素。根据表2的平均得分情况,对上述14个指标进行排序分类,以便直观得出各影响因素在构建信用体系中的重要性。具体如表3。

由此可以看出,我们在构建P2P网络借贷网站的信用体系时,需要考虑放款人所重点衡量的各项指标,关键考虑影响作用大的第一类指标,即安全技术支持、还款能力、信用等级、借款所需时间、借款目的,并将其余类别指标按照对用户行为影响的重要程度在信用体系建立过程中进行相应程度的体现。这样有利于我们建立一个完善、高效的信用评级体系,方便用户在进行网络借贷交易时获得准确、对称的信息,降低参与主体所需承担的风险。

2、借款人的行为特征对信用评级体系的影响。通过对P2P网络借贷平台实际考察,我们发现借贷平台划分了不同的信用级别来衡量借款人行为特征。但是,这并不能全面考察,有可能忽视了相同信用级别内的行为差异和信用级别体系的纵向联系。所以,我们借助统计学中聚类分析的方法,对于仅靠目前网络借贷平台自身建立的信用等级体系对借款人行为进行划分的过程中所忽视的问题进行研究,找出相同信用等级内的客户差别和不同信用等级之间的主体联系,使得P2P网络借贷平台信用体系中对借款人行为的划分更加清晰和精确。

为了进行计算,我们从拍拍贷平台上抽取2013年1-6月的样本,经过筛选最终提取出不重复的100条借款人信息。其中拍拍贷平台将用户的信用等级划分为A、B、C、D、E、HR六类,A类代表信用等级最高、信用风险低、在借贷平台上活跃的借款人;而后逐级递减,HR表示信用等级最低、信用风险大的借款人。

对提取出的借款人信息进行整合,得到每一个借款人的ID账号、借款额度、借款总次数、信用等级和借出信用分数(即借款人充当放款人进行投资交易所获得的借出行为信用评分),并以其作为聚类变量,其中以信用等级为分类变量运用SPSS.18软件对该样本进行聚类分析,得到新的分类。具体统计数据如表4。

从表4中得出,两阶段聚类法将样本数据中借款人分为4类。因此,我们可以看出软件并没有完全按照借贷平台自身制定的信用等级对借款人行为规律进行划分,而是挖掘出了更为精确的分类。

第一类中,分类组成十分多元化,借款平均总次数和借出平均分数在4类中最高,可以看出该类借款人在网络借贷平台上较为活跃,并且一般较多的充当放款人的角色进行资金投资。

第二类中,该类别由少部分的E和全部HR组成,借款平均额度处于四类中最高水平,借款平均次数较小说明他们参与借贷交易并不是非常积极,但由于其资金管理运营能力强,还款信用高,所以可以筹集到较大金额的款项。

另外两类是由剩余的信用等级为D和E的借款人组成,第四类相比于第三类各项指标均较小,可以判断他们是偶尔通过拍拍贷平台筹集小额借款进行短期资金周转的需要。

由上述结果我们知道,虽然拍拍贷平台将用户分为六个信用等级,但经过聚类分析后将六个月内参与网络借款平台的用户分为了4类,得出的结论弥补了仅仅依靠借贷平台自身设定的信用等级来判断用户,却只获取借款人行为规律部分信息的缺憾,从而可以指导P2P网络借贷平台建立更有针对性的信用体系,培养和支持重点客户,获得更好的发展。

五、总结

网络用户行为挖掘 第3篇

关键词:用户兴趣模型 Web挖掘 个性化服务 档案馆

中图分类号:TP311.13 文献标识码:A 文章编号:1673-8454(2008)19-0017-03

互联网以惊人的速度迅猛发展,使得设计与维护Web站点的工作变得尤为重要。摆在高校档案馆管理人员面前的新课题是如何管理高校档案馆网站上的大量信息,以满足高校档案馆用户不断增长的个性化的信息需求。所谓个性化服务是指对不同的用户采取不同的服务策略,提供不同的服务内容,其关键在于必须知道用户的兴趣,并准确地建立用户兴趣模型。

一、WEB挖掘

1.Web数据挖掘概述

Web数据挖掘,简称Web挖掘,是数据挖掘技术在Web环境下的应用,是集Web技术、数据挖掘、统计学、计算机网络、数据库与数据仓库、可视化、信息科学等众多领域的一项综合技术。Web数据挖掘是指在互联网上挖掘有趣的、潜在的、蕴藏的信息以及有用的模式的过程。Web挖掘不同于数据挖掘,主要区别在于数据挖掘面对的是结构规范化的数据库,而Web资源是异构的,多为半结构化或非结构化的文档、图形、图像、声音等。

2.Web挖掘的分类

Web信息的多样性决定了Web挖掘的多样性。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web 结构挖掘、Web 使用记录挖掘。Web挖掘详细分类如图1所示。

二、Web挖掘的个性化研究

所谓Web个性化实质上就是一种以用户需求为中心的Web服务。图2描述了Web个性化的实质。首先,不同的Web用户通过各种途径访问Web资源;其次,系统学习用户的特性,创建用户访问模型;最后,系统根据得到的知识调整服务,以适应不同用户的个性化需求。

1.Web个性化信息服务中用户研究的目的

Web个性化信息服务为用户提供符合个人需要的服务。因此,要真正做好个性化服务,必须深入开展用户研究,了解服务的用户群类型、特征,分析用户的真正需求。

(1)创造适应个人心理和行为的信息活动环境,从而根据用户的知识结构、心理倾向、信息需求和行为方式等充分激励用户信息需求,支持用户习惯行为方式,促进用户有效检索和获取信息,促进用户对信息的利用和在此基础上的知识创新。

(2)凝聚与个人相关的信息资源。通过基于灵活分析的、可方便定制的个性化资源组织机制,形成针对个人或课题特殊需要和特殊应用要求的虚拟信息资源集合,从而在充分挖掘和利用广泛信息资源的同时保障用户信息检索利用的针对性和有效性。

(3)提供针对个人特点的检索与利用服务机制。用户的个性化行为贯穿于用户检索和利用信息的全过程,因此个性化服务必须能够探察用户在这个过程中的知识需求、行为习惯和决策方式,动态组织针对这种个性行为的辅导、辅助、检索和利用机制,为每一个用户过程提供“个人信息咨询助理”,提高用户信息检索与利用的效率。

(4)建立与个人信息系统的有机融合。用户个人积累、处理和传递信息的系统是用户信息环境的基石,信息服务系统通过有机融合和支持用户个人信息系统,将能帮助用户整合基于信息检索利用的知识传播与创新过程中的多个环节与系统、提高用户信息利用的整体能力和效力。因此,个性化信息服务还应致力于协助用户建立个人信息系统,甚至提供个人信息系统ASP服务或平台设施,提供这类系统与其它相关资源的有机连接。

2.Web个性化服务系统的一般步骤

Web个性化服务系统的一般步骤是:(1)收集用户的各种信息,如注册信息、访问历史等;(2)分析用户数据,创建符合用户特性的访问模式;(3)结合用户特性,向用户提供符合其特殊需求的个性化服务。用户对系统提供的服务做出反馈信息,系统根据反馈信息调整服务。通过用户与系统之间循环反复的交互,系统最终能够为用户提供个性化服务。从上面的分析可以看出,通过分析用户的各种信息建立用户访问模式是建立个性化系统的关键。Web挖掘是实现用户建模的基本要求。

3.目前Web个性化服务系统的研究现状

目前已经出现了多个应用Web挖掘技术创建的Web个性化服务系统。这些系统应用的Web挖掘类型包括使用挖掘、内容挖掘和结构挖掘;收集数据的方式有三种,即从客户端、代理或服务器得到原始数据。最后提供的服务有两类,即过虑服务和导航服务。

实现个性化服务的关键,就是对Web用户浏览信息进行正确的分析,准确地描述用户的兴趣。只有准确地把握用户的浏览兴趣,才能将用户感兴趣的资源推荐给用户,也才能在用户群之间进行准确地协作推荐。

准确地描述用户的兴趣主要包括两个方面:(1)从用户浏览信息中准确地挖掘出隐含的用户兴趣信息;(2)采用准确的表示方法来表示用户兴趣。在预先不知道用户兴趣类型的情况下,一般采用聚类算法对用户的浏览信息进行分析。有了聚类结果,怎样来表示用户的兴趣又是另一个重要方面,该表示方法应该满足准确、易于理解和易于更新的要求。

三、高校档案馆用户兴趣挖掘的建模过程概述

Web挖掘是数据挖掘方法在Web环境下的应用,它从数据挖掘发展而来。Web挖掘与传统的数据挖掘相比有许多独特之处。首先,Web挖掘的对象是海量、异构、分布的Web文档数据。通常认为以Web作为中间件对数据库进行挖掘,以及对Web服务器上的日志、用户信息等数据展开的挖掘工作,仍属于传统数据挖掘的范畴。其次,Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的。此外,由于Web文档本身是半结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适合于Web挖掘,即使可用也需要建立在对Web文档进行预处理的基础之上。

由于档案信息数据的特殊性,基于高校档案馆用户浏览页面内容的挖掘有别于一般的数据挖掘。通过采集用户浏览历史信息数据,然后对这些文本数据进行预处理,得到文本的向量空间模型表示,在此基础上可以对文本进行相似度计算并用于聚类分析。有了文本的基于不同主题的正确分类后,最后分析高校档案馆用户每一兴趣子类的权值,并采用二层树状结构模型来表示用户的兴趣。这就是整个高校档案馆用户兴趣挖掘过程模型,如图3所示。

从图3中可以看出,整个高校档案馆用户兴趣挖掘过程都不需要用户的参与,是完全的隐式创建。系统自动获取用户的浏览信息,经过分析处理后输出用户的兴趣模型。将所得的用户兴趣模型应用于个性化系统推荐服务中,根据用户的反馈信息可以对模型进行更新,符合高校档案馆用户兴趣动态变化的要求。

1.元数据获取

用于Web数据挖掘的数据很多,包括日志信息、用户行为数据、页面超链接信息、页面内容数据、用户注册信息、站点拓扑结构信息等,这些数据一般可以从高校档案馆的服务器端、客户端、代理服务器端获得。服务器端所提供的数据记录了所有高校档案馆用户访问服务器的详细资料;代理服务器记录了多个高校档案馆用户在多个Web站点间的浏览行为;而客户端数据则很直接地反映了某个个体的单一的浏览行为。所以三个不同的数据源分别反映了不同的研究对象群体。在获得用于数据挖掘的元数据后,将它们进行整理并以适当的格式进行保存,供聚类分析和用户兴趣模型建立使用。

本文中用于高校档案馆用户兴趣挖掘的元数据主要是用户浏览页面的内容信息,它被用于基于内容的聚类分析。这些页面的内容信息主要来源于Web服务器端,首先根据用户的浏览日志记录,得到单一用户的浏览历史页面URL,然后从数据库服务器中取出这些URL对应的Web页面另存于该用户的浏览页面文件夹中。

2.数据预处理

与数据库中的结构化数据相比,Web文档具有有限的结构,或者根本就没有结构。即使具有一些结构,也是着重于格式而非文档内容。不同类型文档的结构也不一致。此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。

Web文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。这就需要对文本进行预处理,抽取代表其特征的元数据,这些特征可以用结构化的形式保存作为文档的中间表示形式。文本特征指的是关于文本的元数据,分为描述性特征和语义性特征。描述性特征诸如文本的名称、日期、大小、类型等易于获得,而语义性特征较难得到,包括文本的作者、机构、标题、内容等。W3C近来制定的XML、RDF等规范提供了对Web文档资源进行描述的语言和框架。在此基础上,可以从半结构化的Web文档中抽取作者、机构等语义性特征。

3.文本聚类分析

对Web页面文本进行预处理后,得到文本的特征表示。基于这些结构化表示的数据,就可以采用现有的 Web知识发现方法进行知识挖掘,常用的方法有聚类、关联分析等。

文本分类是指按照预先定义的主题类别为文档集合中的每个文档确定一个类别,它是一种监督学习,对一系列训练样本的分析来预测未知页面的类别归属。与文本分类不同,文本聚类没有预先定义好的主题类别,它是一种无监督学习方法。它的目标是将文档集分为若干类,要求同一类内文档内容的相似度尽可能大,而不同类间相似度尽可能小。基于用户浏览内容来挖掘用户的兴趣是在预先不知道高校档案馆用户兴趣类型的基础之上进行的,所以采用聚类分析方法更适合。整个聚类分析以文本特征表示的页面集为输入,经过聚类后输出表示高校档案馆用户不同兴趣类型的多个兴趣页面集合,每一集合内的页面都与某一特定的主题类别相关。

4.高校档案馆用户兴趣建模

在利用正确的聚类分析方法得到准确性较好的用户兴趣类页面簇后,怎样准确地表示用户兴趣就成了整个用户兴趣挖掘的关键所在。

对高校档案馆网站访问者个人特性爱好的了解是 Web站点提供高效的个性化服务的重要手段。由于网站的设计者和管理者无法直接了解用户的特性,所以我们采用一种根据每个用户的浏览行为为用户兴趣建模的手段提供个性化服务。

用户兴趣建模(Modeling User Interests)是指根据访问者对一个Web站点上Web页面的访问情况,可以模型化用户的自身特性和兴趣爱好。在识别出用户的特性后就可以开展有针对性的个性化服务。用户兴趣建模的主要目的是识别用户的信念、目标和计划,以提供个性化的服务。用户兴趣建模的步骤一般包括以下几个:

(1)定义数据结构以满足系统需要;

(2)识别当前用户;

(3)加载当前的用户模型,如果不存在这样的模型就按照缺省方式新建一个;

(4)在用户与系统交互的基础上更新模型。

通常,用户兴趣建模主要有三种途径:

(1)推断匿名访问者的人口统计特性

由于Web访问者大都是匿名的,所以需要根据匿名访问者的访问内容推断访问者的特性。例如,可以根据已知访问者的统计特性(如:性别、年龄、收入、教育程度等)和对页面的访问内容来推断未知用户的人口统计特性。在得到访问者的人口统计特性后就可以提供个性化的、有针对性的服务。

(2)在不需要用户参与的情况下,得到用户兴趣描述文件

用户兴趣描述文件用于描述用户的基本兴趣特性。要想使Web站点自适应和个性化,一条重要的途径就是了解用户的基本特性,这样才能开展有针对的服务。在前面已经讨论到,用户兴趣描述文件就像一个人在某个Web站点的身份证,它唯一标识了该用户。

(3)根据高校档案馆用户的访问模式来得到用户群体兴趣

基于高校档案馆用户的公共访问特性而进行用户聚类,是Web访问信息挖掘的一个重要方面。用户的访问特性由用户的访问日志得到,聚类的结果可以被用于分类用户或给高校档案馆网站管理者提供参考价值。

四、总结与展望

高校档案馆个性化Web服务通过收集和分析高校档案馆用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能充分提高站点的服务质量和访问效率,从而吸引更多的档案信息访问者。实现高校档案馆个性化服务的关键就是对高校档案馆用户浏览信息进行正确的分析,准确地描述用户的兴趣。只有准确地把握用户的浏览兴趣,才能将用户感兴趣的资源推荐给用户,也才能在用户群之间进行协作推荐。?筅

参考文献:

[1]吉根林,孙志挥.Web挖掘技术研究[J].计算机工程, 2002 Vol.28 No.10 16-17.

[3]Magdalini Eirinaki,Michalis VazirgiannisWeb Mining for Web Personalization, ACM Transactions on Internet Technology,Vol.3,No.1,February 2003,Pages 1-27.

[4]史忠植著.知识发现[M].北京:清华大学出版社,2002.

网络用户行为挖掘 第4篇

移动网络用户在网络空间中进行业务处理、数据收发和信息交换,产生各种与网络用户相关的业务流交互行为,移动网络用户的行为通过承载用户业务和数据信息流数据特征流来体现,移动网络用户的行为特征信息流是一组时间序列,表现为具有某些特征量的统计特征和用户关联信息特征,通过对移动网络用户行为的特征提取和模式挖掘,可以定量控制和分析移动网络的用户行为,对移动网络用户行为的时间序列进行分段聚类挖掘处理,考虑利用不同业务流的相邻分组和大数据信息特征,最大程度地实现存储空间的均匀遍历,提高移动网络用户的监控能力。Electronic Learning(E⁃Learn⁃ing)是一种全新的网络学习方法,随着移动网络用户行为挖掘模型的有效构建,并应用在E⁃Learning的学习系统设计中,实现对资源库的综合集成,提高应用信息科技和互联网技术进行内容传播的能力。因此,移动网络用户行为的挖掘模型在E⁃Learning系统的构建具有重要的应用价值[1]。

E⁃Learning系统是建立在移动网络用户行为模型挖掘的基础上,通过对承载用户业务的数据流进行信息模型构建和特征分析,实现在某个时间点或时间段内的流量分析和查询,以此为输入嵌入到E⁃Learning系统中实现移动网络用户行为模型分析和构建。传统方法中,对移动网络用户行为模型的挖掘方法主要有基于ARM硬件平台开发的E⁃Learning系统下移动网络用户行为模型的挖掘、基于经验模态分解的移动网络用户行为模型的挖掘方法、基于报文长度和时间间隔分段接收的移动网络用户行为模型挖掘方法等[2⁃4],并取得了一定的研究成果。

1 移动网络用户行为挖掘模型及E⁃Learning系系统总体设计

1.1 移动网络用户行为挖掘模型设计

通过研究移动网络用户行为挖掘模型,应用在E⁃Learning系统的构建中[5⁃7],提高学习效率,首先构建移动网络用户行为挖掘模型,假设不同的用户行为节点之间在通信状态会产生MAC层与业务流关联的时间序列P=(p1,p2,⋯,pn),不同类型的业务流通过时间序列进行聚类调度分析,根据主机Agent与分析中心的协议规定,在主机Agent发送的各种监测数据是构建一段业务流进行移动网络用户行为监测,通过旁路方式捕获计算机中主要负责数据收发的报文长度和时间间隔等用户行为特征,进行移动网络用户行为特征挖掘,在移动网络用户行为挖掘过程中,用户终端节点通过通信模块收到服务请求后,监控模块负责提供服务器端的底层的通信机制,移动网络用户行为挖掘模型的总体流程如图1所示。

由图1可见,移动网络用户行为挖掘通过信息检索模块负责提供服务器端用户行为的规律特征,主服务器节点收到移动网络用户报文序列P=(p1,p2,⋯,pn)后,选取的报文子序列请求调度到存储该文件的服务器服务队列,文件信息资源接收时间戳后将根据报文长度加入服务器服务队列对移动网络用户的行为进行时序关联矩特征提取,每一行的各属性由网络行为决定,业务流段Qi和Qi+1之间存在两个属性值时,每一个行为属性样本Xi至各类属性的状态特征Zj的流量特征。

设移动网络用户的主机节点与特定外部对象持续指标<ts,te>为基本观测窗口,为了准确观察主机通信行为,计算用户时间信息,采用关联规则分析方法挖掘主机运行工作时间W=te-ts,W为移动网络用户的主机节点观测的最大长度,系统通过频繁项集设定观测间隔Δw,将时间窗口W划分为n+1个基本观测窗口,由此挖掘出移动网络用户的行为空间轴上的关联特征信息:{w0,w1,w2,……,wn},。假设S={s1,s2,……,sm}为移动网络用户相对独立的子序列D在<ts,te>期间的截获时间记录,给定信息系统S=(U,C⋃D,V,f),其中<tsi′,tei′>为参数的单项数据项si的开始、结束时间。通过S中贝叶斯粗糙集项信息si特征提取,计算移动网络用户行为的非空有限论域:

引入粗糙集向量数据合并技术,进行移动网络用户行为的P分段分割处理,使得每一个Qj都是一个相对独立关联时间信息,则特定类型的用户行为业务流在时间轴上的展宽为W=te-ts,W为本次主机行为观测的最大长度,系统通过基本观测间隔Δw将W划分为n+1个基本观测窗口:,见图2。

假定xm+1为移动网络用户行为决策属性的预测误差,计算公式为xm+1=x1,在有限个mass函数中扩充论域U′。通过上述算法设计,实现了移动网络用户行为挖掘,通过行为挖掘,把移动网络用户的时序关系的支持度特征分为h个连续的段Q1,Q2,……,Qh:

并嵌入E⁃Learning系统中,提高E⁃Learning系统的可靠性和学习自适应性。

1.2 基于移动网络用户行为挖掘模型的E⁃Learning系统总体设计

在上述进行了移动网络用户行为挖掘的基础上,进行E⁃Learning系统设计,E⁃Learning系统设计主要是进行软件开发设计。采用模块化编程设计方法,将移动网络用户行为挖掘模型加载到Linux内核中,利用虚拟文件系统VFS将驱动程序嵌入内核,实现流程主要有模块的注册,自动配置、初始化设备参数,中断服务程序和模块注销四个步骤。设备驱动程序开发过程中在dev目录下建立目录filesystem,在该目录下将linuxrc文件拷贝到filesystem/etc目录下保存基本的用户命令工具。

E⁃Learning系统的ARM硬件平台采用CCS(Code Composer Studio)设计,CCS是TI公司推出的集成开发平台,采用“自下而上”的设计方法,在用户主目录C5409 Device Simulator仿真环境下将系统管理程序分析向量的地址加载到PC,在E⁃Learning系统中,网络设备通过嵌入式Linux的系统开发进行报文接收和信息调理,通过对移动网络用户行为的模式挖掘,结合密集通信采样,识别用户行为特征,输入输出系统给用户提供一个简单、统一的系统调用接口,实现用户的在线学习,通过上述分析,E⁃Learning系统设计包括了程序驱动模块、自动配置模块、中断模块、时钟模块、I/O端口模块等,得到本文设计的基于移动网络用户行为模型挖掘的E⁃Learning系统的总体设计结构图如图3所示。

根据上述设计结构框图,进行E⁃Learning系统的软件开发设计,在嵌入式开发环境下,在E⁃Learning系统中实现移动网络用户行为挖掘。

2 系统开发设计与实现

2.1 基于移动网络用户行为挖掘的E⁃Learning系统应用程序开发

在上述进行了移动网络用户行为挖掘模型设计的基础上,进行E⁃Learning系统应用程序开发,采用交叉编译以及使用标准GCC编译的方式构建基于移动网络用户行为挖掘的E⁃Learning系统应用程序开发环境,编译链接生成脚本名为install⁃qt⁃x11.sh的open source,在宿主机上进行编译、仿真。开启SQL驱动支持来编译基于ARM平台的QWT库。运行make命令,开始编译,移动网络用户行为挖掘的E⁃Learning系统应用程序将QWS的LIB库放入rootfs的/lib下,文件编辑过程如图4所示。

基于移动网络用户行为挖掘的E⁃Learning系统应用程序开发过程中,在软件系统中使用的FFT函数,作为触摸屏驱动进行人机通信,使用JTAG板(一般借助H⁃JTAG软件)把Linux内核文件z Image直接烧写入NOR FLASH。在虚拟文件系统中负责管理和存储文件信息,从而引导加载程序(Boot loader),内核通过一个加载模块来动态地加载或移除模块(module),得到程序加载的接口代码如下:

在对移动网络用户行为挖掘中,运行的任务通过Task Basic的接口声明run Next Task()的状态。当E⁃Learning系统的一个组件使用post关键词投递一个移动网络用户行为特征时,它调用的是post Task命令。每一个Task Basic(基本任务)必接收通知上层的射频字节的ID作为参数连线到调度程序。并发信号通知高层次的主动消息组件(Active Message),调用unique函数获得下一个任务的ID。自动地对声明的任务进行连线,程序组件Scheduler Basic P用task或者post关键词声明射频字节组件内部的任务,nes C编译器会自动完成连线工作。通过构建Tiny OS的通信机制,实现无线消息包组的传输,得到Tiny OS的通信机制模块如图5所示。

在本文系统中,Tiny OS是用汇编和C语言编写的,整个程序由多个组件(component)连接(wired)构成,可通过对同一接口不同的句柄事件进行分别处理,asyc申明的命令或事件申明语法如下:

通过上述分析,完成了基于移动网络用户行为挖掘的E⁃Learning系统应用程序开发。

2.2 E⁃Learning系统的软件平台设计优化实现

在上述完成对E⁃Learning系统的移动网络用为行为模式加载和嵌入式设计的基础上,进行E⁃Learning系统的软件平台开发优化。软件开发主要包括移动网络用户节点程序设计、节点程序开发、上位机通信等。E⁃Learning系统的节点程序主要支出TCP/IP协议栈,文件Mine Pressure Collection C.nc里面完成在嵌入式Linux系统下的程序引导和软件的移植,充分利用开源Linux操作系统的交叉编译功能,在程序使用如下接口:

在上述接口程序配置的基础上,执行“Make menu⁃config”后,在主菜单里选择<Exit>退出,并选“Yes”保存,编译结束后,会在arch/arm/boot目录下进行添加、修改等操作。

采用的交叉编译以及使用标准GCC编译方式构建开发编译环境,转到脚本存放的目录,输入命令source install⁃qt⁃x11.sh,在E⁃Learning系统中,编译phonon模块+⁃phonon⁃prefix<dir>,命令make install的安装目录,qtlibinfix<infix>追加在库文件名后面的字符,编译基于ARM平台的QWT库建立基于移动用户行为模型挖掘的QWT控件库,进一步检测用户的等级,通过调度模块将该服务请求加入泛知识云系统中,调度模块将该服务请求的内核创建模块进行解压,解压完成后进入busybox目录下,执行用Busybox的安装脚本程序,新建一目录filesystem,系统启动的一些脚本和服务器配置文件,利用mkyaffsimage工具,制作根文件系统,字符设备和块设备通过read(),write()等系统调用数据结构进行数据传输,实现移动网络用户行为挖掘和E⁃Learning系统编译链接,利用insmod命令将其动态加载到内核中,在includelinuxfs.h文件中,自动配置和初始化设备参数,由此实现了对移动网络用户行为模型挖掘和E⁃Learning系统的软件开发设计。最后通过程序加载,完成上层应用程序的配置和上位机通信。

3 系统性能测试仿真实验

为了测试本文模型在实现移动网络用户行为挖掘和E⁃Learning学习中的性能,进行系统性能测试,实验中,采用Matlab数学编程工具进行移动网络用户行为挖掘模型的算法设计[8⁃10],在程序设计的基础上,采用s3c2440_adc_open()函数进行移动网络用户行为挖掘的程序加载,I2C总线采用硬件设置器件地址实现同步通信寻址,编译包括26个基本命令和8个专用命令进行总线宽度和数据传输开始位的设定,设置SDICON寄存器,运行Qt/Embedded实现移动网络用户行为挖掘,移动网络用户行为表现为一组承载用户业务的数据流,得到挖掘到的移动网络用户行为数据流时间序列如图6所示。

以上述挖掘到的移动网络用户行为的研究为对象,加载到本文设计的E⁃Learning系统中,进行E⁃Learning系统的学习服务质量对比分析,得到仿真结果如图7所示。由图7可见,采用本文方法进行E⁃Learning系统设计,通过对移动网络用户行为有效挖掘,提高了E⁃Learning系统对移动网络用户的服务质量,展示了较好的应用性能。

4 结语

E⁃Learning系统是建立在移动网络用户行为模型挖掘的基础上,通过对承载用户业务的数据流进行信息模型构建和特征分析,实现在某个时间点或时间段内的流量分析和查询,以此为输入嵌入到E⁃Learning系统中实现移动网络用户行为模型分析和构建。本文提出一种基于频繁项集关联规则分析的移动网络用户行为挖掘模型,在嵌入式Linux系统下进行系统设计和软件开发。实验分析表明,该移动网络用户行为挖掘模型和E⁃Learning系统具有较好的行为挖掘准确性,提高了E⁃Learning系统对移动网络用户的服务质量,展示了较好的应用价值。

参考文献

[1]崔永君,张永花.基于特征尺度均衡的Linux系统双阈值任务调度算法[J].计算机科学,2015,42(6):181-184.

[2]MAHMOUD E E.Complex complete synchronization of two nonidentical hyperchaotic complex nonlinear systems[J].Mathematical methods in the applied sciences,2014,37(3):321-328.

[3]PALOMARES I,MARTINEZ L,HERRERA F.A consensus model to detect and manage non-cooperative behaviors in large scale group decision making[J].IEEE transactions on fuzzy system,2014,22(3):516-530.

[4]ELDEMERDASH Y A,DOBRE O A,LIAO B J.Blind identification of SM and Alamouti STBC-OFDM signals[J].IEEE transactions on wireless communications,2015,14(2):972-982.

[5]KARAMI E,DOBRE O A.Identification of SM-OFDM and ALOFDM signals based on their second-order cyclostationarity[J].IEEE transactions on vehicular technology,2015,64(3):942-953.

[6]MOHAMMADKARIMI M,DOBRE O A.Blind identification of spatial multiplexing and Alamouti space-time block code via Kolmogorov-Smirnov(K-S)test[J].IEEE communications letters,2014,18(10):1711-1714.

[7]ELDEMERDASH Y A,DOBRE O A,MAREY M,et al.An efficient algorithm for space-time block code classification[C]//Proceedings of IEEE Global Communications Conference.Atlanta,USA:IEEE,2013:3329-3334.

[8]郭帅,马书根,李斌,等.Vor SLAM算法中基于多规则的数据关联方法[J].自动化学报,2011,39(6):883-894.

[9]杨明,卢青,苏标.基于环境承载力的连续型交通网络设计双层规划模型与算法[J].长沙理工大学学报(自然科学版),2015(1):23-28.

网络用户行为挖掘 第5篇

目前国内手机用户已经超过9亿户, 研究手机客户的群体行为, 对服务提供的通信公司制定合适的销售策略, 精确定位客户需求, 提高客户服务质量等, 均起到积极作用。

手机用户之间存在巨大的交互网络, 以每个用户为结点, 其间的交互关系 (语音、短信、彩信、飞信) 为边, 规模庞大, 结点数以千万到亿, 边为亿到几十亿;它随时间动态变化, 具有“小世界”特点, 由许多小群体组成, 如同事圈子、朋友圈子、亲友圈子、兴趣圈子;此外, 营销活动也会引起网络的变化。

1 客户细分体系

现有的对客户行为进行分析的方法, 主要集中在解决银行客户行为的问题上, 以及网络用户行为分析方面, 在对电信用户行为分析方面, 几乎是空白。由于电信用户的数据特点和银行客户、网络用户的数据特点有着明显的不同, 手机用户的数据种类繁杂, 数据量大, 分类的类型多, 用户的类型变化频繁, 有可能出现同一用户同时属于几个类型的现象。在面对大量的用户数据, 首先要进行合理的规格化处理;其次在分类的时候, 既要做到准确性, 也要考虑到不断的学习新的数据, 从而适时地调整分类时的方法[1]。

由于对手机用户的一些基本行为, 如打电话 (本市、长途) 、接听电话、发短信等, 这些已经非常普遍, 本文不予研究。本文的重点在于研究通信服务提供公司近几年刚刚发展的一些项目。

通过对收回的1 025份问卷调查表分析得知, 绝大多数体验近几年增值业务的用户年龄集中在18~25岁之间, 这也符合实际情况。移动通信这几年发展的一些新项目确实是针对年轻人的, 如动感地带, 就是主要针对大学生。对问卷调查表深入分析, 发现手机用户对业务的使用主要为图1所示的6类。

根据此客户细分体系, 本文对问卷调查表的数据进行分类与研究, 得出以下结果及对通信服务提供公司的合理性的建议。

1.1 网本/数据卡潜在客户

绝大多数用户的上网月流量都达到20~50 M B, 但开通“随E行”的用户随着年龄变化波动很大。随E行是通信服务提供公司最近才刚刚推出的业务, 由于种种原因, 导致一部分用户并不清楚这项业务, 通信服务提供公司可以加强随E行的宣传和推广。移动飞信、M SN (M icrosoftservicenetwork) 和腾讯 (Q Q) 这3种聊天都可以通过电脑客户端很方便地使用, 手机使用的相对较少。通信服务提供公司可以增强这3种手机软件的性能, 将它们进一步普及。

1.2 对于电子渠道类用户

用户愿意自己登陆网上营业厅进行业务办理的不多;使用掌上营业厅处理业务的更少, 手机相对于电脑总是有很多不方便之处;使用10086IV R (interactive voice response) 自动语音流程查询话费的用户相对于前二者要多一些, 毕竟打电话还是比较方便的。通信服务提供公司可以加强电子渠道的宣传, 附带一些优惠政策等等, 使用户愿意去尝试。

1.3 手机报用户

彩信功能在用户间还不是广泛使用, 可能是由于彩信费用较贵;还有, 一般情况下, 用户不会自己去制作和发送彩信。对于手机报这类彩信业务, 也只有小部分用户会去订阅。一般情况下, 用户收到的彩信条数会远远多于发送的。通信服务提供公司可以分析一下目前的彩信业务体系, 在这方面进行改进, 以激发用户的使用欲。

1.4 彩铃用户

90%的用户都不会主动去下载彩铃, 而且用户如果开通了彩铃业务, 一般到期了或者隔几个月就会去关闭。通信服务提供公司可以改变现有的彩铃政策, 来吸引用户使用彩铃。

1.5 短信用户

用户的点对点短信每月可达到250~350条。手机最常用的两个功能就是打电话和发短信, 250~350条短信对于18~25岁的用户来说是正常的。

1.6 移动业务

一般的移动业务, 用户在开通一段时间后会去关闭, 说明用户在使用这些业务一段时间后会觉得自己不需要或者消费太高等而关闭。通信服务提供公司可以结合一些对用户来说比较划算的业务, 将这些业务推广出去, 并调整资费情况等, 给用户更多的体验。

2 基于改进k-me a ns算法的深入研究

2.1 数据挖掘过程

数据挖掘是一种透过数理模式来分析企业内储存的大量资料, 以找出不同的客户或市场划分, 分析出消费者喜好和行为的方法。就是从存放在数据库, 数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[2]。其准则是使属于同一类的个体间距离尽可能小, 而不同类个体间距离尽可能大。它利用一种或多种计算机学习技术, 从数据库的数据中自动分析并提取知识。典型的数据挖掘算法有k均值 (k-m eans) 算法、分类决策树 (C4.5) 算法、贝叶斯算法、神经网络算法等。

k-m eans算法是聚类中最常用的算法之一, 在处理大数据量方面有绝对的优势, 而且可以取得较好的结果。它以最小化某个目标函数为优化准则, 不断进行迭代, 迭代的结果往往不是全局最优, 而是局部最优, 除非k个初始凝聚簇选的恰到好处。不同的初始凝聚簇组合可以得到完全不同的结果。k-m eans算法是很典型的基于距离的聚类算法, 采用距离作为相似性的评价指标, 即认为两个对象的距离越近, 其相似度就越大。该算法认为簇是由距离靠近的对象组成的, 因此把得到紧凑且独立的簇作为最终目标[3,4]。

2.2 改进的k-me a ns算法

由于本文所提供的移动用户的数据是从大量数据中抽取出来的2万条, 它们本身并没有什么联系, 但是从上文的分析可知, 移动用户之间是有一定的群体行为的, 也就是说在某些移动业务的使用上, 一定数量的客户相当于是属于一个k-m eans算法的簇内的, 所以本文对k-m eans算法的改进就从k-m eans算法簇的选择入手, 让有类似群体行为的客户先在一个簇内, 从而减小实验过程中的误差。

k-m eans算法的一个缺点为对簇的平均值的初值敏感, 对于不同的初始值, 可能会导致不同的聚类结果。所以本文制定一种选择簇的规则来代替随机选择簇, 从而得到数据在空间分布上一致的、相似程度较大的数据集合, 即为k-m eans算法的初始的k个簇, 之后再按照原始的k-m eans算法的方法进行迭代, 直到符合要求为止。如此一来就可以大大提高算法的精确度。

最初的k个簇的选取方法 (以二维坐标系为例) 如下。

算法:

step 1:观察需要处理的数据点, 建立一个二维坐标系, 使得所有的数据点均在第一象限内。

step 2:按照合理的单位长度, 将这些数据点分配到各自所在的单位长度的小长 (或正) 方形内, 将有数据点的每一个小方格的中心即作为初始簇的均值。

step 3:若有数据点正好落在网格线上, 则将这些点按照如下规则归入对应的小方格中:

·此点到周围小方格中心距离最短。

·此点到小方格中心距离相等的两相邻小方格, 取数据点较少的一个小方格收纳此点;若此两小方格数据点一样多, 则在与横坐标平行的网格线上的点全部算作上面的一个小方格, 在与纵坐标平行的网格线上的点全部算作左边的一个小方格。

step 4:根据上述步骤得到的初始聚类簇运用W EK A (W aikatoenvironm entofknowledgeanalysis) 软件进行分析。

以彩铃条数和彩信条数具体解释此算法。

假设图2为空间数据点分布在网格线的示意图, 按照上述规则, 刚好在网格线上的两点M和点N, M应该归入小方格A中, 点N应该归入小方格B中, 如图3所示。所有将有点的每个小格的中心作为初始簇, 即有17个初始迭代点。

但是从图3可以看出, 有些小格内仅仅只有一个点或者两个点, 而也将它们作为一个初始迭代点, 这就造成了浪费。所以此算法的一个关键之处就在于要根据算法要达到的效果, 例如聚类的个数等, 选择合适的坐标长度。

根据本实验的数据, 我们拟将数据分成6类, 而且有33个属性, 故我们可以建立一个33维的坐标系, 按照这两万个数据的范围将每个坐标轴均分成合适的等分, 再根据上面所描述的算法将这些点全部归结到6个单位小方格内, 这6个单位小方格的中心即为k-m eans算法的初始簇。接着再用W EK A软件中的k-m eans算法进行迭代就可以得到结果。

3 结果分析

下面本文将根据通信服务公司提供的从2008年5月至2010年10月中随机抽取的2万条客户的各项移动业务使用情况的数据, 基于W EK A软件利用改进后的k-m eans算法对上面的理论分析进行验证。

3.1 理论分析的验证

由于本文的重点在于研究通信服务提供公司近几年刚刚发展的一些项目, 而通信服务提供公司所提供的数据含有很多方面的内容, 所以必须先对有用的信息进行筛选。对原始数据按照本文重点研究内容将153个属性人工筛选为相关的33个属性, 并制作成W EK A支持的.arff文件, 载入W EK A的探索者 (explorer) 。再根据本文所提出的改进k-m eans算法的思想编程, 设定W EK A的k-m eans算法的初始簇, 就可得出运行结果。

对结果进行分析, 发现结果中所显示的6类用户的特征均与社会调查中的理论分析一致, 这说明了本文理论分析以及对通信服务提供公司的建议的正确性。

3.2 改进的k-me a ns算法的正确性验证

为了进一步说明改进k-m eans算法聚类的正确性, 本文用另一种数据挖掘算法C4.5算法来对改进k-m eans算法聚类的结果进行检验。

C4.5算法由基于信息熵 (ID 3) 的算法改进而来, 是利用递归方法依次对训练数据集进行判断的分类算法。它利用信息熵作为判断决策树根结点的准则, 逐层递归判断, 不断学习, 构造出一棵分类树。较ID 3算法, 它可以处理连续数据、处理缺少属性值的训练样本、抗噪声性能提高等[5]。C4.5决策树算法采用10折交叉验证[3]来选择和评估模型。下面两个指标说明了C4.5算法分类的精确度之高。

3.2.1 指标一

用C4.5算法对改进后的k-m eans算法的聚类结果进行分析, 表1是C4.5算法交叉验证的结果。

表1说明C4.5算法对20 000个数据的分类中, 只有42个是不正确的, 准确度达到了99.79%, 这是一个相当高的精度。

3.2.2 指标二

C4-5算法中有一个评价指标为A U C (area underthe R O C curve) , 它表示R O C (receiveroperating characteristic curve, 接受者操作特性曲线) 曲线下的面积。观察表2中的数据, 整理得到最后一行, 这就是我们要得到的评价指标A U C。

我们取R O C平均值作为A U C, 即A U C=1, 说明此结果的精度近似为100%。

从C4-5算法的指标来看, 改进后的k-m eans算法的精确度非常之高。

3.3 总结

从改进k-m eans算法的实验结果来看, 它聚类得到的6类用户的特征与本文理论分析的结果完全一致;而C4.5算法对改进k-m eans算法的验证的高指标又表明了改进k-m eans算法的聚类结果的精确度非常高;这两者相结合正说明了本文对手机用户群体行为的理论分析, 以及根据用户规律给通信服务提供公司的业务发展提出的建议[0]的可信度、可靠度。

摘要:通过研究客户对通信服务提供公司增值业务的消费需求和消费态度, 建立基于手机用户的客户细分体系;根据理论分析对通信服务提供公司的业务发展提出合理性的建议;用改进的k均值 (k-means) 算法和分类决策树 (C4.5) 算法对实际数据进行分析, 结果表明, 对通信服务提供公司业务发展提出的建议有很高的可靠度。

关键词:数据挖掘,客户行为分析,k均值算法,分类决策树算法

参考文献

[1]吕巍, 蒋波, 陈洁.基于k-means算法的中国移动市场顾客行为细分策略研究[J].管理学报, 2005, 2 (1) :80-84.

[2]王萍.运用聚类技术分析客户信息的方法与实证研究[J].情报科学, 2006, 24 (5) :722-726.

[3]WRITTEN Ian H.FRANK Eibe.数据挖掘实用机器学习技术[M].董林, 邱泉, 于晓峰, 等译. (第二版) .北京:机械工业出版社, 2006.

[4]张燕平, 闫屹.改进的k-means算法在电信客户细分中的应用[J].计算机技术与发展, 2008, 18 (5) :163-167.

网络用户行为挖掘 第6篇

本文首先分析了家居的日常情景,并根据日常情景设计智能家居中常用的控制策略,然后通过实验分析出某用户的行为模式。可用于实现相关加家电的优化控制,实现家居生活的智能化。

1 智能家居情景模式分析

通过大量调研分析,总结归纳了家居生活中几种常见的情景模式,如表1所示。然后设计相应的家电控制策略。控制策略由两部分组成,第一部分是相应模式的引发条件,第二部分是确定了该模式后,系统触发的配合动作。

2 基于用户行为挖掘的智能家居控制系统架构

图1给出了智能家居控制系统框架。其中传感器及时检测信息(光照、电器的开关状态、温度等),传送给控制中心。控制中心将这些数据进行挖掘处理,得出用户的行为习惯,并在合适的时间触发相应的活动。根据用户的行为习惯自动控制电器的动作可以使其生活更舒适,同时合理控制开关时间,有助于节能环保。其中,数据挖掘是系统实现智能控制的关键。

数据挖掘的方法有很多种,选择一种合适的算法非常重要。智能家居需要的是发现用户习惯,并在正确的时间内提供相应的服务。关联规则挖掘就是发现数据库中属性之间的有趣关系,并用支持度和可信度来度量其相关性,从而满足要求。

关联规则(Association Rule)将关联规则挖掘的数据集记为D,D={t1,t2,⋯,tk,⋯,tn},tk={i1,i2,⋯,im,⋯,ip}。tk(k=1,2,⋯,n)称为事务,im(m=1,2,⋯,p)称为项。设I={i1,i2,⋯,im}是D中全体项组成的集合,I的任何子集X称为D的项集。数据集D中包含项集X的事务数目称为项集X的支持数,记为σx。项集X的支持度记为support(X),见公式(1)

式中:|D|是事务集D的事务数。若support(X)不小于用户指定的最小支持度,则称X为频繁项集。若X和Y为项集,且X⋂Y=Φ,蕴含式X⇒Y称为关联规则,X和Y分别称为关联规则X⇒Y的前提和结论。项集X⋂Y的支持度称为关联规则X⇒Y的支持度,记作support(X⇒Y),即

关联规则X⇒Y的置信度,记作confidence(X⇒Y),即

实验选用关联规则中著名的Apriori算法对智能家居用户使用电器的行为活动进行分析。该算法的基本思想是:第一,找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样;第二,由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度;第三,使用第一步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被保留。为了生成所有频集,实验使用了递归的方法。

将每次活动对电器的使用作为一项,每天不同时段的活动作为事务,一周七天的事务作为数据库。希望通过Apriori挖掘算法,找到每日生活中用户的行为模式和使用不同家电之间的联系,从而为智能家居中电器设备的控制找到依据。

3 实验及结果分析

本文使用某用户的用电数据,通过两种方式进行实验,最后分析出此用户的行为模型,指导智能家居的系统设计,从而实现家居生活的智能化。

3.1 一星期电量分析

3.1.1 实验数据的准备

本实验采用的数据是1个家庭1周的用电数据,分3个电表以1 min的采样率采集。第1个电表采集厨房,主要包括微波炉、烤箱等;第2个电表采集洗衣间,主要包括洗衣机和滚筒式干洗机;第3个电表采集热水器和空调。数据格式如表2所示。第1列表示日期,第2列表示时间,第3列表示整个家庭每分钟的平均有功功率,第4列表示整个家庭每分钟的平均无功功率,第5列表示每分钟平均电压,第6列表示每分钟平均电流强度,最后3列分别表示3个地方电表的有功电能。

因为采集上来难免出现错误,所以首先将遗失的数据点用最近上下两个数的平均值填补上。因为需要在后面将电量表示成事件,所画出电量曲线观察用电情况。通过图2可以看出,在电器使用和未使用之间有很大差别,表3是通过分析得出的各事件用电区间。例如,图2中最浅颜色的线代表热水器的工作状态从0变成17,对照表3的事件7和8,可以看出热水器的状态从不工作到工作,说明用户准备洗澡,这是需要提取的事件点。

在按照表3将电量数据表示成相应的状态后,剔除大部分无动作事件,仅保留有事件改变的几个事件点。观察提取出来的事件串,发现仍有一些时间距离很近的事件被重复提取,这样会对最后的结果造成影响,所以需要设定一个“采样率”对已经提取的事件串再次提炼。“采样率”要根据各事件的性质设定,如35 min内两次使用微波炉,在整个事件分析中,就可以看成是一次使用,或者20 min内所有洗衣机的动作事件都可以看成一个洗衣事件。具体提炼条件如表4所示。

3.1.2 基于Apriori算法的挖掘处理

为了方便Apriori程序处理,首先把提取出来的事件串(即事务)用字母表示。由于同一事件在一天中要发生多次,所以将同一天中同一事件用不同字母区分是第几次发生,如表5所示。一天中第一次事件1(表3)表示A,可能是用户在做中午饭,当用户在做晚上饭的时候若再次发生事件1,则表示成F,依次类推。例如,一天中的活动如下:洗澡、做饭(事件1)、洗衣(事件5)、做饭(事件1)、洗澡。那么就可以表示成EACFJ。最后得到的事件序列如表6所示。然后设置最小支持度和最小置信度分别为0.5和1,同时将事件序列与最小支持度和最小置信度输入由JAVA语言编程实现的Apriori算法程序。最后程序输出关联规则。

3.1.3 结果分析

为了便于分析,将同一事件用同一字母表示,如表7所示。由于关联规则的事务中没有相同的项,但在实际中一天可能发生多次洗衣做饭事件,所以在这里并不是完全应用关联规则,暂且把条件定位前置,把可能出现的结果定为后继。查看结果4,1,2,5,8,同时对应表5可以看出洗衣机工作(C)时一定会有热水器工作(E),但是热水器工作不一定洗衣机要工作,同时从结果6,7,9可以看出热水器往往不是工作一次,一天通常会多次使用。这样,洗衣机如果被检测到工作,那么热水器可以进入预热状态,方便用户生活。

本实验通过对某用户用电数据的处理、分析,实现了对智能家居中用户用电行为的挖掘,发现了用户使用洗衣机与热水器之间的关系。把此关系编为控制系统,为该家庭热水器的使用提供了一种控制策略。

3.2 一个月电量数据分析

对用户一个月的用电量进行粗略分析,试图找到更多的用户行为模式。通过观察以及简单的聚类分析,将用户一天的活动分为6个时间段,每个时间段有可能发生4种事件:使用微波炉、使用洗衣机、使用热水器、使用空调。为了便于Apriori分析,将各个时间点的各个事件用不同字母表示,如表8所示。

将关联分析的支持度设为0.2,置信度设为0.6,最后得出结果及对应的意义如表9所示。

通过结果可以发现一些看似毫无关联但是又能反映用户行为的真实情况。由表9序号2可知,如果发生了吃晚饭晚洗澡事件,则那天有0.7的概率会发生晚洗衣事件,这样如果加上洗衣机对机内衣物重量的检测,洗衣机就可以比较准确地判断何时会有洗衣事件的发生,并自动触发,减少了用户的人工操作。通过序号5也可以看出,如果早上发生了洗澡事件,那么发生晚上洗衣事件就有将近0.7的概率,这也可以为洗衣机的自动控制提供理论依据。当然也有一些时间上反过来,但是置信度很高的结果,比方序号14,发生晚上打开空调并且吃晚饭事件,那么发生早上洗澡的概率就有0.8以上。这些看似对后面事件的判断没有帮助,其实更能说明除了特殊情况外,用户的日常生活习惯基本上不会改变,并且模式一致,这样为智能家居系统设计提供了很好的控制策略。同时,查看支持度0.4以上的事件分别为晚饭、晚洗衣、早洗澡、晚洗澡、早空调、晚空调,这些都为模式的制定提供了依据。表10列出了综合各种结果,得到了该用户一般情况下的生活模式,依此结果生成的家电控制策略可以体现良好的互动。

4 结束语

本文分析了家居中常见的情景及相应的家电控制模式。然后利用关联规则算法对实际生活数据进行挖掘分析,得出了用户的生活行为模式。这些工作将为控制系统的设计提供理论支持,帮助智能家居朝着更舒适、更智能的方向发展。

摘要:为了实现智能家居的用户互动,提出了基于用户行为模式的挖掘及家电控制策略。首先分析了几种日常生活情景及家电控制策略,然后根据用电量及数据挖掘结果,分析了用户的家居行为模式。该工作为智能家居系统设计提供了理论依据,并且促进了家居系统的智能化。

关键词:智能家居,数据挖掘,用户行为

参考文献

[1]田琴兰.基于面向对象的智能家居系统建模研究[D].北京:北京交通大学,2012.

[2]刘学会,田珍.基于物联网的智能家居安防监控系统设计与实现[J].制造业自动化,2012,34(9):38-40.

[3]涂亮,段红.光基于433无线收发模块的物联网智能家居系统设计[J].电视技术,2012,36(6):44-46.

[4]杨靖,林益,李捍东.基于ARM和WSNs的智能家居安防系统设计[J].自动化仪表,2012,33(3):38-41.

[5]肖丽,付蔚,王平.智能家居中老人跌倒远程监护系统的设计[J].电视技术,2012,36(13):131-134.

[6]汪宇,吕卫,杨博菲,等.基于Android平台的智能家居监控系统[J].电视技术,2012,36(2):36-38.

[7]闵丽娟,卢捍华,王亚石.智能开关照明控制系统中的上位机软件设计[J].计算机工程,2011,37(22):290-293.

[8]中国智能家居网[EB/OL].[2013-03-02].http://www.smarthomecn.com/.

[9]童世华.无线智能家居室内终端的设计与实现[J].电视技术,2012,36(10):29-30.

[10]谷学静,王志良,贺杰,等.面向老年人的智能家居多模态交互系统研究[J].计算机科学,2011,38(11):216-218.

[11]MAKONIN S,BARTRAM L,POPOWICH F.A smarter smart home:Case studies of ambient intelligence[J].Pervasive Computing,IEEE,2013,12(1):58-66.

网络用户行为挖掘 第7篇

随着科技的发展和社会的进步, 互联网在人们的日常工作生活中扮演着越来越重要的角色, 如政务工作网络化、在线视频会议及网上购物等都极大的改变了人们的生活, 但是伴随着互联网的发展也产生了大量的令人堪忧的网络安全性问题--计算机病毒、黑客入侵、垃圾邮件以及拒绝服务攻击等。现在出现的大量安全性问题, 一个很重要的原因就在于当初人们在设计互联网时更多的是考虑资源的共享而不是网络安全性的设计理念。为解决这些问题, 人们采取了一些安全防范的措施--数字签名、防火墙、入侵检测、系统打补丁等, 这样虽然在一定程度上遏制了网络安全问题的泛滥, 但这治标不治本的策略并不能实现真正的意义上的网络安全。

因此, 目前国内有些研究人员提出了可信网络的相关概念, 其中比较有代表性的定义是:一个可信的网络应该是网络系统的行为及其结果是可以预期的, 能够做到行为状态可监测, 行为结果可评估, 异常行为可控制[1]。从定义中, 我们可以看出可信网络是一个具有动态的, 主动的防御系统, 它更多的是强调网络系统中的行为情况, 这包括网络用户和网络服务提供商的行为。本文将重点讨论网络用户的行为可信情况, 根据求解问题的需要, 我们把网络用户的行为信任划分为安全信任特性、性能特性、可靠性信任特性等[2], 根据这些不同特性的指标, 我们建立用户行为信任的评价体系, 然后用BP神经网络算法结合MATLAB软件对用户的行为信任等级进行预测, 最后得出用户的行为信任等级。论文的主要思想是通过BP神经网络结合MATLAB软件对用户的行为信任等级进行预测, 预测的结果可以给服务提供商控制用户行为的提供参考, 这样的模型在实际问题的求解中具有十分重要的现实意义。

2、可信网络中用户行为信任评价体系的建立

2.1 评价指标体系的建立

科学合理的选择评价对象的评价指标是建立网络用户行为信任评价体系的关键, 这涉及到最终评价结论的精度和可信度, 因此我们在建立评价体系的过程中要遵循一些评价原则, 如全面性原则、可行性原则以及可比性原则等。根据求解问题的实际情况, 建立起以性能特性、可靠性特性、安全特性为用户行为信任评价指标体系的一级评价指标, 再对这三个一级指标进一步的细化, 根据细化后的二级指标最终建立起完整的评价指标体系。

2.2 各评价指标的取值

为了构建一个合理的评价体系, 我们假设对用户行为的三个一级评价指标再细分下去共有L (L≥3) 个二级指标。对于定量指标, 因其衡量单位不同, 必须对这个二级指标进行标准化处理, 使之取值范围为0-1之间的数, 具体有两种情况, 方法如下:

其中是标值为Fj的标准化值;Xj是预先确定的第j个指标的最小值, Xjmin是预先确定的第j个指标的最大值, j是评价指标的数目[3]。对于定性的指标, 我们采用国际上通用的专家打分法, 为了遵循评价体系的可对比性原则, 对其也进行标准化处理。根据求解问题的实际情况, 对用户行为信任等级的划分我们采用从绝对不信任到绝对信任的五个信任等级划分方法, 分别为绝对信任、信任、比较信任、基本信任、绝对不信任, 对应的取值范围分别为[0.9, 1], [0.75, 0.9], [0.6, 0.75], [0.4, 0.6], [0, 0.4]。

3、基于BP神经网络的用户行为信任等级预测模型

3.1 BP神经网络

BP神经网络即误差回归神经网络 (back-propagation neura network) , 它是一种无反馈的前向网络, 网络中的神经元分层排列[4], 是目前应用最为广泛的神经网络之一。它由输入层、隐藏层和输出层组成, 学习的过程可分为两步: (1) 信息的正向传播, (2) 误差的反向传播。在正向传播过程中, 输入信息从输入层到隐藏层再到输出层进行逐层处理, 每一层神经元的状态只影响下一层神经元的状态, 如果输出层的输出与给出的样本希望输出不一致, 则计算出输出误差, 转入误差反向传播过程, 将误差沿原来的联接通路返回, 通过修改各层神经元之间的权值, 使得误差达到最小[4]。BP神经网络的基本思想是:利用最小均方学习算法, 在网络学习过程中使用梯度搜索搜索方法, 利用误差向后传播来修正权, 从而实现网络的实际输出与期望输出的均方差最小[5]。

运用BP神经网络对数据进行预测, 具有以下一些优点: (1) 具有强大的并行分布式处理能力。 (2) 能够根据外界环境的变化通过调节自身的权值的自适应和自学习的能力。 (3) 具有较好的鲁棒性、容错性及泛化能力。 (4) 通过简单的非线性复合映射, 获得具有复杂性的非线性处理能力。

3.2 基于BP神经网络预测模型的建立

⑴输入层的设计

输入层的节点个数为用户行为信任二级指标的个数L。

⑵隐藏层的设计

对于隐藏层的节点数没有一个十分明确的规范要选择多少, 但太多太少都是不合适的, 如果选择的节点数太多, 必然会使学习的时间变长, 效率就下降了, 如果选择的节点数太少, 又会使得网络的容错性变差, 因此合理的选择隐藏层的节点数对于提高预测的精度和效率都有非常大的影响。我们在设计时选用以下这个公式:隐藏层神经元个数年n2和输入层神经元个数n1之间有这样的近似关系:n2=2n2+1[6]。

⑶输出层的设计

本文要预测的是用户行为信任的信任等级, 因此输出层的节点数取值为1个。

4、仿真实例及其分析

我们构建仿真实例, 步骤由以下几个组成:

实例构建

假设有10个用户, 用户行为信任的二级指标为6个, 其中二级信任指标分别取: (1) IP包响应时间; (2) IP包传输延迟时间; (3) 建立连接延迟时间; (4) 非法访问的次数 (5) 感染病毒的次数 (6) 扫描端口的次数。那么根据神经网络设计的预测模型, 对应的输入层、隐藏层和输出层的节点数分别为6、13、1, 由于输入和输出的数据范围为[0, 1], 隐藏层神经元的传递函数采用S型正切函数tansig, 输出层神经元传递函数采用S型对数logsig, 然后编写程序利用MATLAB软件来进行实现。

利用MATLAB软件进行编程, 程序如下, 得出的网络训练结果图如图2:

编写程序, 得出信任等级预测结果

预测的结果和样本期望输出之差得出误差分析图, 如图3:

从图表可以看出, 利用BP神经网络对用户信任等级的预测结果与真实的用户信任等级误差非常的小, 这样的结果是比较合理的, 也符合实际的要求。

5、结束语

本文构建了可信网络中用户的行为信任等级的预测模型, 把网络用户的行为信任划分为安全信任特性、性能特性、可靠性信任特性等[2], 再将这些特性细化为具体的二级评价指标, 根据这些不同特性的指标, 建立用户行为信任的评价体系, 运用BP神经网络的算法思想, 结合MATLAB软件对用户的行为进行信任等级的预测, 最后得出一个合理的预测结果。利用MATLAB软件处理, 不但让我们节省了许多繁琐的编程时间, 而且预测出的结果与期望的输出值非常的接近, 使得服务提供商可以根据预测的结果对用户的未来行为采取相应的控制措施, 从而构建一个相当安全的网络体系。

摘要:本文, 我们探讨了可信网络中用户的行为信任问题, 首先根据网络用户的行为信任的不同特性划分, 建立用户行为信任的评价体系, 然后通过BP神经网络算法, 结合MATLAB软件对用户的信任等级进行科学的预测, 预测的结果可以给服务提供商对用户的管理提供参考。

关键词:可信网络,BP神经网络,预测模型

参考文献

[1].Lin Chuang, Peng Xue-Hai.Research on trustworthy networks.Chinese Journal of Computers, 2005, 28 (5) :752~758 (in Chinese) (林闯, 彭雪海.可信网络研究.计算机学报, 2005, 28 (5) :751-758.

[2].冀铁果, 田立勤, 胡志兴, 孙锦霞.可信网络中一种基于AHP的用户行为评估方法.计算机工程与应用, 2007, 43 (19) :123-126, 151.

[3].沈宗庆, 刘西林.基于BP神经网络的分销商绩效指标评价及应用[期刊].华东交通大学学报, 2007, 24 (4) ;108-110.

[4].田景文, 高美娟.人工神经网络算法研究及应用.北京:北京理工大学出版社, 2006.[书籍]

[5].曹卫群.集装箱港口竞争的博弈模型及其基于神经网络的吞吐量预测研究.硕士, 大连理工大学, 20030601.[学位论文]

网络用户行为挖掘 第8篇

关键词:数据挖掘,网络行为,Hadoop大数据

据《中国移动互联网用户行为统计报告2015》一文中的数字显示,截至2014 年,中国移动互联网用户规模达7.29 亿,其中社交、娱乐、实用工具以及阅读类应用用户占比超过70%,出行旅游、消费(实物)类应用用户占比大于40%[1]。网络世界里充满着多方面的信息和数据,如何通过分析这些数据来发掘用户的潜在需求,为用户推荐更好的产品或服务是当前电子商务的一大营销策略。本文从云计算技术和聚类算法的两个角度来设计用户行为分析系统,希望能为电商系统的精准营销做出贡献。

1系统流程

本次研究主要是围绕如何在Hadoop分布式处理平台之上,借助云计算的方法来研究网络用户的行为而展开的。利用网络用户行为所产生的海量的日志数据构建大数据环境,借助Hadoop分布式处理的框架和聚类算法等挖掘出相应的信息。

1.1数据提取

本系统针对网购用户的行为进行分析,数据来源于搜狗实验室所提供的用户查询日志,主要是Sogou搜索引擎部分通过网络爬虫抓取到的网页查询需求及用户点击情况的网页查询日志数据集合,该数据集合的格式为:访问时间用户ID [查询词] 该URL在返回结果中的排名用户点击的顺序号用户点击的URL,其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID[2]。

1.2数据预处理

Sogou实验室所提供的数据格式是一条数据占据一行,行内数据以空格间隔,因此需要切割数据并存放在一组对象数组中,对象元素包含1.1所叙述的数据集合格式的基本属性。

1.3用户行为的集群性分析

本系统需要对用户的行为进行分门别类,即打上用户标签,标注该用户行为的详细信息,比如用户停留在某一网站时间长短、购物车里的物品类别以及上网时间段等更细粒度的信息。把结果归并成某一特征规律,从而得出用户和网站之间的映射关系。如果此后再关注用户的网络行为时,便可以产生相应的推荐系统。

1.4挖掘用户潜在的其他可能行为:

通过给用户贴标签,分析用户的上网习惯并结合关联规则,我们可以发掘出客户的多种需求,向其推销相关的产品或服务。比如购买圆珠笔的顾客中有65%也会购买笔记本,利用这个规则,网站可以合理地规划商品摆放问题。

1.5优化用户行为分析流程:

为了提高用户行为分析效率,本系统需要解决的问题是“如何利用用户的标签行为给用户推荐物品”和“如何在用户给物品打标签时给用户推荐适合该物品的标签”。

2实验方法及过程

通过聚类算法可以把相似度高的对象归为一类,以实现“物以类聚”,我们可以用聚类算法来对用户的上网行为进行“聚类”,将具有相同的上网习惯的用户归为一类,并为其“贴上”相同的用户标签。本文采用K-means算法实现聚类过程,并将其Map Reduce化。

2.1 K-means算法简介

K-means算法是十大经典算法中的之一,其核心思想就是将m个样本点细分为n个聚簇,每个簇有为数不一的样本点,簇的数量由划分时的设定值决定[3]。其中簇内样本点相似度较大,而簇与簇之间的样本点相似度却很低,通过计算每个簇中样本点的期望值来决定相似度值的大小。

2.2 Mapper与Reducer任务

3 结束语

基于Hadoop的大数据平台分析用户的网络行为有助于推动对用户上网行为的研究向前发展,以目前的互联网和电商的发展趋势来看,用户上网所产生的数据量及其所具有的潜在价值都值得我们对其认真研究。本系统的技术架构的优点在于它的分层处理思路清晰,灵活使用Hadoop的生态系统搭建适合本系统的数据挖掘环境。采用了经典的K-means算法实现聚类思路,并且将其Map Reduce化,虽然最后得出结果,但其中仍然有待优化的地方,尤其是在处理PB级别的数据量时,系统的稳定性更是得出结果的关键。

参考文献

[1]搜狐媒体.中国移动互联网用户行为统计报告.http://mt.sohu.com/20150318/n409959259.shtml.2015

[2]搜狗实验室.用户查询日志.http://www.sogou.com/labs/re-sources.html?v=1.2015

网络用户行为挖掘 第9篇

1 无线通信网络的发展现状

目前我国的无线通信网络技术发展非常迅速, 尤其我们的通讯行业, 如移动、联通、电信等相继推出了一些非常优质的无线网络技术产品, 为更好地通过无线网络服务用户进行着残酷的市场竞争。我们所熟悉GSM、CDMA网络已经充斥到社会的各个角落, 普遍得到了用户的支持和爱戴。而不断发展的3G网络技术, 又以更快、更优质的网络服务成为了无线网络技术领域的新宠儿, 用户对手机这种不断发展的无线网络的依赖程度较普通用户的家庭电脑的宽带服务更加深刻和强烈。近些年4G网络技术正在研发, 无线网络将会更加便捷。几乎每隔上一段时间, 都会有的无线网络技术出炉问世, 人们对无线网络革新的需求也在不断提升。但是即使这样加速的网络技术发展还是很难满足许多用户的使用要求, 如无线网络的覆盖范围不足、无线网络技术的稳定性不够、无线网络技术维护人员缺乏等等, 都制约着用户对无线网络的体验和使用。

同时我国的无线通讯信号技术发展还是比较滞后的, 很多无线信号还不是很稳定, 很多信号之间都存在一定的干扰, 许多公共场所对无线信号经常会进行屏蔽, 避免无线信号对其工作进行不必要的干扰。但也同时反映的是无线信号的技术发展力度不够, 难以满足日益扩大的无线网络通信技术的用户数量。

2 无线通信网络的综合管理

无线通信网络的综合管理需要企业在无线网络技术的生产开始就高度重视, 把握无线网络市场发展的方向, 及时进行技术研究。不但强调推出自己无线网络的技术特色。同时要综合考虑用户的体验和感受, 做出用户需要的网络技术。而无线网络的特点又支持其成为本世纪最能为移动通信带来真正帮助的实体, 所以对无线通信网络的综合管理是网络通信类企业发展的关键之关键。

2.1 无线网络的特点

无线网络作为高科技产品, 以其高速度、高质量的传输品质受到了很多用户的喜好, 它克服了有线网络在施工和数据传输时对地域因素的严格要求, 以更灵活的方式在有线网络的基础上加上了新兴科技, 如无线网络桥接技术, 使数据传输真正地做到了“随叫随到”。克服了传统有线网络的施工难度, 绝大程度地保留了有线网络原有的功能, 满足了移动网络的最基本要求。无线网络有以下几个特点, 是支撑其获得企业以及受众喜爱和支持的重要原因。一是安装和操作的简易化。相比较有线网络, 无线网络的装配和使用更为简便。且覆盖范围也有了非常大的扩展, 不再受到地域环境条件的影响。二是成本低、灵活移动。无线网络不需要再铺设大量的网络电缆, 节省工程费用同时也节省了后期的线路维护的相关费用。无线网络增加无线网络的相关配置简单省事, 同时最大程度地扩大了用户使用网络的范围。

2.2 无线网络的配置

无线网络的配置主要由无线接入器和无线网卡两部分, 两者是否能够处于同一网段, 保证网络数据的正常有序传输。无线接入器就是我们常用的无线网络的交换机, 它是无线网络的核心, 通过无线交换机将无线信号扩展到一定距离。我们常见的无线路由器就是典型的无线接入器, 通过宽带链接到无线路由器, 通过路由器进行信号的接收和发射, 用户可以通过路由器在一定的范围进行网络链接。无线接入器的设置很简单, 一般普通用户都可以通过用户说明书进行链接操作。首先应该确定的一台路由器和电脑, 先将网线一头接入宽带口, 然后另一头接入无线路由器, 再通过另一根网线将无线路由器和电脑链接起来。下来按照说明书将基本的参数进行设置, 同时保证ip地址的正确。常用的就是192.168.1.1, 计算机只要保证最后为在2~255之间就可以进行正常链接。

无线网卡是常用的信号接收终端, 一般的笔记本电脑都会配置无线网卡, 而台式机一般需要配一个外插USB无线网卡来进行无线信号的接收和发送。无线网卡的使用也非常简单, 首先要保证无线网卡的正确安装, 再一次就是无线网卡驱动的安装, 然后对无线网络链接的属性进行设置。通常情况下, 无线网络的频段都按照默认的自动搜索进行操作, 同时也可以通过对具体配置参数的设置来进行网络链接。设置完毕后, 可以查看无线网络的链接状态, 正常的话可以进行网络链接。同时设置后, 电脑会自动搜索无线网络信号, 点击链接便可进行网络链接, 进行正常的网络操作。

3 网络用户行为的分析

网络用户行为是网络技术发展的重要考量数据, 企业只有不断参考高科技, 尽量向用户需求靠拢, 才能获得更大的市场, 所以这期间用户行为的整合和分析非常重要, 不但方便企业的管理和操作, 也是为其以后的市场拓展做出预估和评价, 方便决策者在以后的生产发展和竞争中占得先机, 促进其进一步发展。

对网络用户行为的分析, 首先要统计用户行为的基础数据, 就是经常说的使用率和使用数量, 在网页上体现的就是点击率和点击量。当然也包括一些细化的受众划分, 如地域、性别、时间段等等分类。企业通过对基础数据的日常管理, 分类出自身发展的优势板块和不足之处, 整合分析出不断可以优化网站或无线网络技术的服务能力, 同时加强网络服务的报错机制, 记录好异常状况的发生, 及时操作处理, 避免以后类似情况的再次发生。其次企业要充分认识无线网络的易操作性, 用户当然会采用又便宜又使用方便的产品, 是否让用户觉得用的方便、用的习惯是企业发展和竞争的关键地方。产品的设计充分考量用户的体验, 它直接关系到用户对产品的喜好和重视程度, 也是用户对此产品是否会继续使用或可以为企业带来新的用户。在我们日常的产品生产发展中, 企业都应该站在用户的角度, 有清晰的向导、便捷的使用方式和明晰的指令参考, 让用户觉得方便, 服务周到。

同时企业建立与用户的沟通机制, 首先加强与企业各职能部门的交流沟通, 做好网络平台等基础建设。其次就是做好日常的记录工作, 加强对用户体验的数据的监控和管理, 及时与用户进行沟通, 为用户提供一些可以提出建议的平台或是使用感受的表达平台。通过对这些数据的整合分析, 可以更好地生产出用户喜欢的产品, 同时为我们的目标受众提供更好更细化的服务。

4 无线通信网络的用户行为考量

无线通信网络技术想要更快刚好的发展, 要充分考量以上对用户行为的综合分析, 尽可能满足用户的需求, 扩大需求市场, 才能对自身企业的发展非常有利, 否则就会相背离, 被市场所淘汰。基于用户行为的无线网络技术需要满足用户获取信息需求的同时做好用户行为的统计工作, 从而进行有效的技术升级。

4.1 重视用户的体验

无线网络通信技术是高端科技产品, 一般的用户很难涉猎到这部分。所以一般对于网络技术的运用, 大家都只停留在基本的操作。可以想象中国的几亿网民, 而且在不断增加中, 他们的体验就是一笔宝贵的受众偏好基础材料。无线通信网络技术想要充分发展不能只单单在技术上进行革新, 同时要充分重视每一代产品上用户的体验, 真正了解他们想要的东西才能制造出市场需要的东西。

4.2 重视用户的使用

无线网络通信技术的使用的确较以前的网络链接更为便捷, 普通用户都可以通过说明书进行链接操作。但是一些技术性的东西还是非常不容易理解和操作, 比如一些参数配置的设置, 用户很容易搞混。同时企业要重视用户的操作喜好, 了解大多数用户喜欢进行怎样的操作, 同时不断地将界面操作变得更为优化和简化, 方便更多的用户进行日常管理和操作。

4.3 重视用户的失误

用户对无线网络技术的运用很容易出现一些没必要的操作, 有的会导致系统报错, 有的没有任何系统反应。所以用户在操作中的失误也是企业在无线网络技术方面研究的一个非常好的数据。用户出现操作失误的地方就是企业可以发展的部分, 从这些地方进行补充和改良可以更有效地吸引用户。所以企业在无线网络技术的运用中怎样告知用户如何避免操作失误, 是企业研究的一大课题, 一个完备的导向很有必要, 在用户有疑问时可以进行指引, 搜罗出一些用户常见常问的问题, 不但给出答案同时也应有导向指示进行一步一步的操作。

5 结语

通过以上的分析, 可以看出我国的无线网络通信技术发展的空间还是非常足的, 虽然网络技术更新速度非常快, 几乎每过几年都会出来新的网络产品, 但是对于用户需求的满足还是相对滞后的。所以无线网络通信技术只有不断进行综合优化, 才能满足日益异同的用户需求和市场发展要求。用户行为的个别化的展示也是反映了用户对无线网络技术不同的更高的要求, 也是期待和希望无线网络通信市场上的企业可以在研究和发展的过程中充分考虑用户的体验和感受。以上通过对无线网络技术的基本分析, 同时对如何进行用户行为的研究进行整合, 从用户行为的角度出发, 提出相应的建议和对策, 为更好地促进无线通信网络综合优化提供一些畅想。

摘要:随着无线通信网络技术的不断发展和进一步普及, 人们对网络技术的运用有了更高的要求。而不断加速竞争的网络技术市场, 怎样收获更多用户的支持和信赖, 需要充分从用户体验角度来入手对网络产品进行及时的革新和改变, 这样才能更好地将网络技术做好做优。文章通过对无线通信网络技术的综合研究和用户行为的整合分析, 对如何提高和优化无线通信网络技术提出一些建议和对策。

关键词:用户,无线,网络

参考文献

[1]邢东山, 沈钧毅.Web使用挖掘的数据采集[J].计算机工程, 2002

[2]钟海滨.从话务特征看用户行为变化及其对网络规划工作的启示[J].移动通信, 2004

[3]武森, 谷淑娟, 等.移动通信数据挖掘的数据预处理研究[J].技术经济与管理研究, 2008

[4]黄家林, 刘海韬, 等.用网络行为监控体系对抗常见网络攻击[J].中国海洋大学学报 (自然科学版) , 2009.

[5]苏忠, 林闯, 封富君, 等.无线传感器网络密钥管理的方案和协议[J].软件学报, 2007

上一篇:整合品牌传播下一篇:高中体育课