面向IPTV用户的用户动态兴趣模型构建方法

2023-02-06

工信部最新数据显示, 截止2018年6月末, IPTV用户总数达1.42亿户, 上半年净增2002万户。考虑到IPTV用户是由多个具有不同收视兴趣的成员组成的, 所以, 对于同一个机顶盒号下的用户, 其收视兴趣是随着时间不断变化的, 这就要求构建用户动态兴趣模型, 以便能够提高用户体验, 增强用户对系统的黏度。用户兴趣偏好是用来衡量用户对某一主题是否感兴趣以及感兴趣的程度的, 常采用0～1之间的实数表示[1]。在通常情况下, 用户并不愿意付出额外的时间和操作来显示表达自己的兴趣 (例如, 对物品进行评价、打分) , 所以只通过显式反馈来追踪用户兴趣偏移是不大可能的。而隐式反馈更多的建立在对用户行为的分析和观察上通过推理得到 (如用户的点击行为、停留时长、阅读完整度等信息) , 这部分数据是大量用户的真实反映, 有利于用户兴趣偏移中用户兴趣的确定。

一、用户行为数据预处理

(一) 用户历史行为数据说明

在IPTV场景中, 用户的行为主要描述为:用户收看的节目名称、节目类型、节目时长, 收看该节目的开始和结束时间等信息。

(二) 数据获取与预处理

与大部分推荐领域不同的是, IPTV领域缺乏用户对电视节目的显式行为数据, 如评分, 评论。为了识别用户的兴趣偏好, 本文利用网络爬虫工具爬取豆瓣网中电视节目的类型标签数据, 如动画、爱情、脱口秀等, 总共得到36个标签。

由于本文所采用的是某广电运营商提供的真实数据集, 存在较多的冗余和噪音数据, 为此, 需要对数据进行相关的预处理工作, 如统一将字体转为简体汉字, 对跨天观看的数据进行隔夜处理, 最终选取用户观看行为时长在5分钟至180分钟之间的用户观看数据。将用户观看数据与爬取到的节目标签信息按“节目名称”为主键进行合并, 得到用户--标签--节目数据。

(三) 基于时间效应的用户兴趣

本文研究了用户兴趣在不同时间的变化情况, 采用百度指数来进行分析, 百度指数显示关键词在某个时间的搜索的受欢迎程度。分析发现, 人们的收视行为在时间上具有一定的周期性。目前, 大部分研究引入时间衰减函数给予用户近期评分行为更高的权重, 然而, 当某个用户的观看行为有周期性, 比如某个家庭的用户喜欢在上午看电视剧, 下午看动画片, 周末看电影, 这种方法就不再适用了。为此, 本文提出一种时间感知的用户动态兴趣模型构建方法。

二、用户动态兴趣建模

(一) 时间窗口的划分

在IPTV场景中, 一般一个家庭的所有用户共享一台电视, 这就意味着同个账号下包含这一个家庭的多个成员。本文根据TPTV领域用户的收视时间主要表现在同一天内时间段上的不同, 按照人们的作息时间人为地将时间分成五个时间段, 定义五个时间窗口, 分别是:凌晨、上午、下午、晚上和深夜五个窗口。

(二) 用户动态兴趣模型的构建

本文借助标签将用户与电视节目联系起来, 以更好的识别用户的兴趣偏好。首先, 将用户行为数据转换为低维空间中的两个矩阵:即用户兴趣矩阵 (用户-标签) 和项目从属度矩阵 (项目-标签) 。根据用户行为的时间上下文信息, 将时间划分为k个时间窗口: (t1, t2, ..., tk) , 并统计每个时间窗口下基于标签的用户兴趣偏好。然后, 根据用户对电视节目的收视时长, 统计用户在每个时间窗口下使用标签的行为时长, 在本文中, 根据用户对标签的使用频次和时长, 将其进行归一化得到用户对标签的权重偏好, 具体计算公式如下:

其中, 表示用户对标签i的偏好权重, 取值为[0, 1], 表示用户u使用标签t的总时长, 表示用户在该时间段使用的K个标签的总时长。

用户的标签兴趣偏好表示为:

最终, 得到用户动态兴趣模型为:

其中, X的值是根据具体时间动态激活, 激活时为1, 不激活时为0。

(三) 用户兴趣漂移模型

对于IPTV用户, 用户的兴趣会随着自己阅历的增长和电视节目的流行度不断的发生变化, 比如小米上半年喜欢看古装剧, 下半年受周围朋友的影响就改看综艺节目了, 或看战争片了。因此, 定期对用户的兴趣进行更新是很有必要的, 这样才能跟踪到用户动态变化的兴趣偏好。

为定期对用户兴趣进行更新, 准确表达用户当前所处时期的兴趣信息, 本文采用以下更新方法更新用户兴趣模型:

设定一定的时间为统计周期, 每隔一天、一周或一个月 (本文每隔一周) , 对用户的收视情况进行统计和更新, 分别用Interestnew和Interestold来表示用户上一统计周期的兴趣偏好和当前所处周期的兴趣偏好。用p表示该兴趣偏好的更新比例:

当Interestnew=已存在兴趣出现, 给定一个阈值δ, 若p<δ, 那么说明用户在当前周期与上一周期用户兴趣偏好随着时间的推移变化不大, 则将用户的兴趣更新为:

反之, 若p≥δ, 那么说明用户在当前周期与上一周期用户兴趣偏好随着时间的推移变化大, 则将用户的兴趣更新为:

当Interestnew=新兴趣出现, 说明有新的兴趣加入, 则此时用户的兴趣更新为:

当Interestnew=兴趣删除, 说明有兴趣退出, 则此时用户的兴趣更新为:

最终, 得到用户的兴趣漂移模型为:

以上模型的建立不但能够刻画用户在不同时间的兴趣偏好, 同时还能定期更新用户的兴趣, 能够比较合理又及时的表达“多用户”的多样多变的兴趣。

三、总结

针对IPTV领域中“多个用户共享同一终端”, 用户兴趣存在多样性和多变性, 但用户的行为又存在一定的周期性, 本文提出一种用户动态兴趣模型的构建方法, 采用多个时间窗口来动态识别用户的时间上下文信息, 使用标签权重来衡量用户对电视节目的兴趣偏好。本文所提模型也适用于其他受时间影响较大的电子商务领域, 具有一定的现实意义和理论意义。

摘要：IPTV领域存在“同个账号共享一个终端”, 导致同个账号下收集到的用户兴趣是多样的, 也是多变的, 但又存在一定的周期性。目前该领域的研究只把用户当成是单一的用户, 没有考虑用户兴趣的多变性和多样性, 导致推荐准确度差, 用户体验效果不佳。为此, 本文提出了一种构建用户动态兴趣模型的方法, 该模型通过设置时间窗口动态跟踪用户兴趣并动态更新用户兴趣。

关键词：IPTV,动态兴趣,兴趣模型,模型构建

参考文献

[1] 夏义国, 刘友华.一种用户兴趣度计算与用户兴趣修正的改进方法[J].现代情报, 2014, 34 (1) :46-48.

[2] 项亮.推荐系统实践[M].人民邮电出版社, 2012.

[3] 张勉.基于隐马尔科夫模型的用户兴趣漂移模式发现方法[J].北京建筑工程学院学报, 2005, 21 (3) :50-52.

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处