• 基于协同过滤的个性化学习推荐

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • 摘要

       随着互联网和信息计算的飞速发展,我们已经进入信息爆炸的时代。网络中各种信息量的指数型增长导致用户想要从大量信息中找到自己需要的信息变得越来越困难, 信息过载问题日益突出。推荐系统在缓解信息过载问题中起着非常重要的作用, 该方法通过研究用户的兴趣偏好进行个性化计算, 由系统发现用户兴趣进而引导用户发现自己的信息需求。 协同过滤推荐是推荐系统中应用最广泛最成功的技术之一。但是, 随着信息量的急剧增长, 传统协同过滤推荐系统面对数据的快速增长会遇到严重的数据稀疏性问题以及可扩展性问题。传统算法忽略了用户的兴趣点会随着时间而发生改变的现象。因此,针对目前协同过滤算法在实际应用中遇到的问题,本文也介绍了一种综合的改进协同过滤算法,能够通过深度挖掘用户数据提升协同过滤算法的推荐性能,优化用户的智能体验。

    • 引言

       当今时代,移动互联网技术的发展以及在线服务的普及改变了人们的生活方式,但海量信息的增长导致人们对信息输出质量的要求越来越高。也就是说互联网的发展拓宽了用户获取信息的渠道,但并非所有的网络信息都具有价值,因此,在信息过载的时代,帮助用户高效准确地筛选出感兴趣的资源已经成为互联网发展的关键。推荐系统作为一种个性化技术,它不需要与用户有过多的互动,就可以根据用户在互联网中留下的痕迹,主动分析并挖掘用户的兴趣偏好,引导用户发现自己潜在的信息需求,缩小用户选择的范围。推荐系统不仅可以为用户提供个性化服务,还能与用户建立密切联系,让用户对其产生依赖。因此,推荐系统被广泛应用于不同领域,如电商网站、视频、音乐和生活服务等。协同过滤算法是解决这一问题的主要技术。 协同过滤作为一种被人们广泛认可的推荐技术,可有效处理结构化信息,不需研究推荐信息的内容与属性;同时,其又能够结合一些不容易体现的概念完成信息过滤,且推荐智能化程度高, 充分满足个性化推荐的要求。

    • 概述

    2.1基本思路

     

       我们通过先从三个关键词来理解协同过滤的基本思路,即集体智慧、共现关系和近邻推荐。

       「集体智慧」:协同过滤是一种集体智慧的体现,也就是需要借助于群体信息。从另一个角度来讲,其实就是 “借用数据”,在自身数据稀缺的情况下利用其他相似的信息帮助建模;

       「共现关系」:协同过滤中的 “群体” 是基于物品的共现关系来构建的,比如两个物品同时在很多用户身上的共现,或很多用户在对物品行为上的共现;

       「近邻推荐」:协同过滤是基于相似信息的推荐模型,即根据用户在物品上的行为找到物品或者用户的 “近邻”,这里的 “邻”,一般指群体,其基本假设是相似的用户可能会有相似的喜好,相似的物品可能会被相似的人所偏好。

     

    2.2协同过滤推荐算法

       目前应用比较广泛的协同过滤算法是有两种类型的协同过滤方法被广泛研究, 即基于内存的协同过滤(Memory-based CF)和基于模型的协同过滤(Model-based CF)。

     一:基于内存的协同过滤:

      基于内存的协同过滤方法一般采用最近邻技术, 利用用户的历史喜好信息计算用户之间的距离, 然后利用目标用户的邻居用户对商品评价的加权值来预测目标用户对特定商品的喜好程度, 推荐系统根据喜好程度对目标用户进行推荐。

         基于用户的方法(User-based CF):给用户推荐和他兴趣相似的其他用户喜欢的产品(产品可指学习的内容)。

         基于项目的方法(Item-based CF):给用户推荐和他之前喜欢的物品相似的物品(物品也可指学习的内容)

     实现算法:

    1. Jaccard公式:

        杰卡德相似系数。杰卡德相似系数是衡量两个集合之间相似度的一种指标。用户 u 和用户 v 共同评分过的项目集合的数量与他们评分过的总项目集合的数量之间的比例称为杰卡德相似系数。由于该方法无法反映用户的具体评分偏好信息, 因此通常用于评估用户是否会对项目进行评分而不是预测用户对项目的具体评分。公式为:

    上述公式,直观上理解就是,将用户u与用户v都喜欢的物品的数量除以他们喜欢物品的总和,如果u和v喜欢的物品是一模一样的,则u和v的相似度为1。

     

      2. 余弦相似度计算公式:

     

         余弦相似度通过计算两个向量的夹角余弦值来评估它们的相似度。输出范围和皮尔森相关性系数一致, 含义也相似。公式为

     上述公式的分母部分代表的是u喜欢的物品的数量与v喜欢的物品的数量的乘积,而不再是他们之间的交集。

     

      3.  皮尔森相关系数。

      皮尔森相关系数用于度量任意两变量间线性相关的程度, 系数值越大表明两者相关性越强,   数的输出范围为[–1,1]。0 代表两者无相关性, 负值为负相关, 正值为正相关。两者的相似性可表示为:

     其中, Iij表示用户i 和用户j 共同评分过的项目集合, Ri,x和 Rj,x分别表示用户 i 和用户 j 对项目 x 的评分, RI 和RJ 分别表示用户i 和用户j 对所有项目评分的平均值。

     

    二:基于模型的协同过滤:

     

       基于模型的协同过滤方法通过建模的方式模拟用户对项目的评分行为。其使用机器学习与数据挖掘技术, 从训练数据中确定模型并将模型用于预测未知商品评分。常见模型包括聚类模型、贝叶斯模型、矩阵分解等。

         (1)聚类:聚类算法基于预定义模型构造数据, 是一种无监督机器学习算法。按照聚类对象的不同可以分为用户聚类模型、项目聚类模型以及用户-项目联合聚类模型。用户聚类模型即将兴趣相近的用户集聚成一簇; 项目聚类模型即将相似项目进行聚类; 还可以同时考虑用户和项目的聚类结果进行综合分析。

         (2) 贝叶斯模型:由于推荐问题可以转化为分类问题, 因此可以通过机器学习领域中的分类算法来解决推荐问题。贝叶斯网络基于条件概率和贝叶斯定理。该网络能够推导出用户或项目之间的概率依赖关系。其使用决策树表示概率表, 对每个推荐项都构造一个单独的树。树中节点的分支选择取决于用户对特定项目的评分。用户对预测项目评分的概率向量存储在树的节点中。

         (3) 关联规则挖掘:关联规则挖掘通常基于用户购买商品之间的关联关系预测用户偏好。具体来说, 关联规则基于物品维度构思考虑, 分析出数据库中所有包含属性等特征信息模块间的隐藏关联, 进而找出满足给定项集支持度和项集置信度的多个模块间存在的所有依赖关系。

         (4) 矩阵分解:矩阵分解是推荐系统中最常用的协同过滤模型之一。该模型利用用户-项目评分矩阵预测用户对项目的评分, 通过学习用户潜在向量U 和项目的潜在向量 V, 使 U 和 V 内积近似于用户真实评分 X, 得到预测的评分 R 。

     其中 i 是用户索引, j 是项目索引, rij 表示用户 i 对项目 j 的预测评分, u 是用户的潜在向量, v 是项目的潜在向量。然后计算其损失函数为:

        (5)马尔可夫决策过程(Markov decision proc[1]esses, MDP)。基于 MDP 的协同过滤算法将推荐转化为一种序列优化问题, 使用 MDP 生成推荐。MDP 的关键优势在于它们考虑每个推荐的长期影响和每个推荐的算术平均值。MDP 可以被定义为一个四元组: 〈 S, A, R, Pr〉, 其中 S 表示状态集合, A表示行为集合; R 表示每个“状态/行为”对的奖励函数, Pr 表示给定任一行为的每一状态对之间的转移概率。

    2.3 国内外研究现状

     

       随着数据的指数级增长, 传统协同过滤推荐系统的问题越来越明显, 主要包括:冷启动与稀疏性问题、可扩展性问题、多样性问题以及可解释性问题。在协同过滤方法中, 项目的推荐基于用户过去 的偏好, 因此当出现新用户或新项目的时候无法做 出推荐。该问题被称为冷启动问题。此外, 由于电子商务规模的扩大, 用户数据和项目数据急剧增加, 而用户评价过的项目或用户间重叠的项目数量过少, 使得用户-项目矩阵出现极端稀疏性, 导致推荐效果不理想。

       改进型基于用户协同过滤算法:

         使用基于用户的协同过滤推荐算法建立网络学习资源的个性化推荐系统,针对协同过滤推荐算法的矩阵稀疏和冷启动问题,引入学习行为日志和用户初始化标签进行算法改进,具体算法如下:

           

          Step 1. 根据用户历史资源评价,生成用户资源评价矩阵;

          Step 2. 根据用户资源学习行为,生成用户资源行为矩阵;

          Step 3. 基于用户资源行为矩阵,调整用户资源评价矩阵,生成用户-资源矩阵;

          Step 4. 根据用户能力、专业、兴趣和学历标签,生成用户初始化标签;

          Step 5. 根据用户-资源矩阵和用户初始化标签,计算用户相似度;

          Step 6. 产生推荐结果。

     

    2.4 协同过滤算法的优缺点

        协同过滤算法的优点:

    • 基于用户行为,因此对推荐内容无需先验知识
    • 只需要用户和商品的关联矩阵即可,结构简单
    • 在用户行为丰富的情况下,效果好

        基于协同推荐算法的缺点:

    • 需要大量的显性/隐形的用户行为,有冷启动问题
    • 假定用户的兴趣完全取决于之前的行为,没有考虑到当前的上下文环境
    • 需要通过完全相同的商品关联,相似的不行
    • 在数据稀疏的情况下易受影响,可以考虑二度关联。
    • 总结与未来的研究展望

       总结:

      智慧教育面对海量的在线学习资源使用个性化学习资源推荐是其发展的趋势。 但本文的算法仍然存在一定不足,一方面是算法存在一定的局限性,在很多应用领域对用户的资源不好获取; 另一方面,随着时间的推移,用户的学习兴趣、习惯、能力等可能会发生变化,历史数据存在时效性,这种用户兴趣漂移现象本文提出的算法没有考虑。 针对这些问题还需进一步研究。

     展望:

      随着信息技术和互联网行业的发展, 信息过载成为人们处理信息的挑战。 图神经网络、知识图谱等研究与推荐系统相结合以做出更准确的推荐是必要的。

        (1) 推荐系统与图神经网络 :GNN 最近已成为一种广泛应用的图分析方法。推荐系统中的用户-项目交互关系可以看作一个图, 即用户和项目作为节点, 两者之间的交互作为边。同时还可以融入用户的社交网络、项目的属性信息等。 

        (2) 推荐系统与知识图谱 :知识图谱中的结构化知识有助于缓解推荐中的冷启动等问题; 但 知识图谱具有一定的时效性。如何刻画这种时间演变的网络并在推荐时充分考虑时序信息是需要我们考虑的。

        (3) 交互式推荐系统 :可交互的推荐系统不仅可以通过数据的迭代来更新推荐算法, 还可以通过人机交互的方式帮推荐算法感知人们的情感色彩, 使推荐系统不仅能推断用户对物品的喜好, 还能感知用户对推荐算法本身的调优方向。

       

      通过对协同过滤推荐算法进行回顾, 可以发现在解决传统协同过滤算法存在的冷启动与稀疏性、可扩展性、多样性以及可解释性问题时, 目前的工作主要是利用评分数据、社交网络信息以及其他领域信息等辅助信息, 结合深度学习、数据挖掘等技术提 高推荐效果、提升用户满意度。随着图神经网络、知识图谱等研究的发展, 将其与推荐系统相结合以做出更准确的推荐是未来一个重要的发展方向。

     

    • 参考文献

    [1]佘学兵,黄沙,刘承启.基于深度学习的网络资源优先协同过滤推荐[J].计算机仿真,2022,39(02):431-435.

    [2]孙晓寒,张莉.基于评分区域子空间的协同过滤推荐算法[J].计算机科学,2022,49(07):50-56.

    [3]侯璐璐.基于Spark架构的艺术学慕课资源协同过滤推荐算法研究[J].现代电子技术,2020,43(03):162-164+168.DOI:10.16652/j.issn.1004-373x.2020.03.039.

    [4]赵俊逸,庄福振,敖翔,何清,蒋慧琴,马岭.协同过滤推荐系统综述[J].信息安全学报,2021,6(05):17-34.DOI:10.19363/J.cnki.cn10-1380/tn.2021.09.02.

    [5]王根生,袁红林,黄学坚,闵潞.基于改进型协同过滤的网络学习资源推荐算法[J].小型微型计算机系统,2021,42(05):940-945.

    [6]王粤,黄俊,郑小楠,李玲玲.基于用户兴趣和评分差异的改进混合推荐算法[J].计算机工程与设计,2021,42(10):2830-2836.DOI:10.16208/j.issn1000-7024.2021.10.018.

    [7] Rendle S, Freudenthaler C, Gantner Z, et al. BPR: Bayesian Per[1]sonalized Ranking from Implicit Feedback [C]. The Twenty-Fifth Conference on Uncertainty in Artificial Intelligence. 2009: 452-461.

    [8] Shani G, Brafman R I, Heckerman D. An MDP-Based Recom[1]mender System [J]. Journal of Machine Learning Research, 2005, 6: 1265-1295.

    [9] Kim E, Kim M, Ryu J. Collaborative Filtering Based on Neural Net[1]works Using Similarity[M]. Advances in Neural Networks – ISNN355-360.

     

    • 标签:
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部