基于知识图谱的推荐系统综述笔记
简介
- Tittle: A Survey on Knowledge Graph-Based Recommender Systems
- Author: Qingyu Guo, Fuzhen Zhuang, Chuan Qin, Hengshu Zhu, Senior Member, IEEE, Xing Xie, Senior Member, IEEE, Hui Xiong, Fellow, IEEE, and Qing He
- Time: 7 October 2020
- Journal: IEEE Transactions on Knowledge and Data Engineering
20 年利用知识图谱的推荐系统综述。
基于知识图谱的推荐系统综述
Methods
Embedding-based Method
基于嵌入的方法通过利用 kg 中的多样事实来丰富 item 或 user 的表示,主要分为两个基础模块:图嵌入模块(学习图谱中的实体和关系表示)和推荐模块(使用学习到的特征来估计 user 对 item 的倾向)。
分类:the two-stage learning method、the joint learning method 、and the multi-task learning method。
挑战:如何通过正确的知识图谱嵌入方法来获得实体嵌入,如何在推荐模块中结合已学习的实体嵌入。
Two-stage Learning Method 两阶段学习方法
分别训练图嵌入模块和推荐模块,图嵌入模块使用 KGE 训练之后与 user、item 的特征一起输入推荐模块进行预测。
优点:容易实现、kge 不需要 useritem 的互动数据,对于大尺度数据集不会增加计算复杂度
缺点:transductive 的缺点,训练好之后难以更新,需要重新训练,两模块直接联系不够紧密,不太适合 kg 外任务(有个解决方法是使用 gan 或贝叶斯生成模型来初始化实体嵌入)。
Joint Learning Method 联合学习方法
把两模块端到端结合起来一起训练,推荐模块可以指导图嵌入模块的特征学习。
优点:可以端到端地训练,可以利用 kg 结构来规范推荐系统。
缺点:对于结合不同目的的函数,需要微调(fine-turning)
Multi-task Learning Method 多任务学习方法
多任务学习就像是几个网络共用前多少层,然后对于不同的任务选择不同的分支进行? 使用 kg 相关的任务来指导推荐任务的训练,动机是因为 useritem 二部图中的 items 与 kg 中关联的实体的结构相似,因此在他们之间传递 low-level 特征(有点像是细粒度?比如卷积一次的图还是能看出来原来是什么,卷积多次之后就是 high-level feature)对促进推荐系统的提升有帮助。
优点:能帮助避免推荐系统过拟合,提升泛化能力。
缺点:与联合学习方法类似,在一个框架下需要联合不同的任务。
Connection-based Method
基于连接的方法利用图中的连接模式来指导推荐系统。大部分工作利用 useritem 的 kg 来挖掘图中实体的关系。
分类:Meta-structure Based Method、and Path-embedding Based methods。
挑战:如何为困难的任务设计合适的元路径,如何建模实体间的连接模式。
Meta-structure Based Method 基于元结构的方法
元结构包括 meta-path 和 meta-graph,利用元结构来计算实体间的相似性,可以作为 user 和 item 表示的约束,或者用来从互动历史中的相似 user、相似 item 来预测用户的兴趣。其中一种实现是利用不同元路径的实体的连接相似性作为图规范化来约束 user 和 item 的表示,动机是有高度元路径相似度的实体在潜在空间中都比较接近。
优点:容易实现,且大部分都基于矩阵分解技术(MF),使得模型复杂度低。
缺点:元路径或元图的选择需要相应领域的知识,且这些元结构在不同的数据集中差距很大。在某些特殊场景,该方法并不合适,例如新闻推荐任务中,一个新闻的实体可能属于不同的领域,使得很难设计元路径。连接模式没有明确地建模,因此这个方法缺乏一定的表示能力(FMG 通过用元图代替元路径,捕捉更丰富的语义来解决这个问题)。
Path-embedding Based methods 基于路径嵌入的方法
基于元结构的方法中有个问题就是连接模式没有明确地建模,这使得很难学到 useritem 对和连接模式之间的相互作用。基于路径嵌入的方法就是来明确学习连接模式的嵌入。一些工作学习 useritem 知识图谱中的 useritem 对的连接、或 item 知识图谱中的 itemitem 对的连接的路径的明确嵌入来直接对 useritem 关系或 itemitem 关系建模。
优点:能够考虑目标用户、候选 item 和连接模式之间的相互作用。大部分模型能不借助预定义的元结构的帮助,自动地通过计算合格的路径并选择主要的那些来挖掘连接模式。因此可以能捕捉有表达力的连接模式。
缺点:如果图中的关系十分复杂,可能的路径数会相当大。实际中几乎不可能利用大规模知识图谱中每个实体对的所有路径,不然会妨碍模型的性能。
Propagation-based Method
High-order relations contain spatial relations (e.g., “behind”, “below”, “left”) and semantic relations (e.g., “playing”, “wearing”, “holding”). Then these relations are combined with visual features to enrich the representations of images.
基于嵌入的方法利用知识图谱中的语义关系来丰富用户与物品表示或规范化推荐,但很难捕捉实体间的高阶关系(high-order relations)。 基于连接的方法将复杂的 useritem 连接模式分解为线性路径,不可避免地会丢失信息。 基于传播的方法结合实体关系表示和高阶连接模式来创造一个更加人性化的推荐系统。基于传播的方法是基于表征传播(embedding propagation)的思想。这些方法(GNN)通过聚合多跳邻居节点完善了实体嵌入,然后再进行推荐。
基于传播的方法一般都很消耗计算资源,为了提升效率,提出了更快的图卷积操作,在每层中通常使用邻居采样。然而随机采样会不可避免地损失信息,无法完整地 explore 图中的知识。
分类:Refinement of User Representation、Refinement of Item Representation、and Refinement of both User and Item Representation。
挑战:如何给不同的邻居分配合适的权重,如何在不同关系的边上传播信息,如何提升模型的泛化能力。
Refinement of User Representation 丰富用户表示
基于用户的互动历史来丰富用户表示,这些工作构建多种关系连接互动 items 和候选 items 的 item KG。动机是用户可以通过他们互动过的 items 和其多跳邻居来聚合为一个整体。
优点:在这个方法中 item KG 的边的权重是明确的,因此可以选择连接候选 item 与交互过的 item 的主要路径(salient path)来作为推荐结果的解释。
缺点:尽管利用了实体嵌入和高阶连接信息,在传播过程中只有用户表示得到了更新。
Refinement of Item Representation 丰富物品表示
在 item KG 中,通过聚合候选物品的多跳邻居来学习其高阶表示。在向内的传播过程中,采用图注意力机制,其中不同邻居的权重是根据用户与关系特定的。动机是用户对不同的关系会有不同的倾向,这会引导知识图谱中的信息流动。
优缺点与丰富用户表示类似。
Refinement of both User and Item Representation 丰富用户与物品表示
在 useritem KG 中的传播机制,user、item 和他们相关联的实体都在一张图中连接起来,useritem 对之间的交互可以看作关系的一种。用户与物品嵌入可以通过他们相关的邻居节点上的传播过程来进行增强。
和我想的 useritementity 的知识图谱很像,使用这种方法来获得 user 和 item 的嵌入,然后进行推荐预测。但本质上还是基于嵌入的链接预测?没法处理新的 item 和新的 user,不然要重新嵌入,而且也会遇到冷启动问题?
优点:权重也是 user-specific 的,所以也有一定的可解释性。特别是 user 也作为 node,所以解释更直觉,高阶连接模式被充分利用。
缺点(downside):图中更多的关系会带来不相关的实体,这会误导聚合过程中的用户倾向(为了解决,AKGE 在子图中学习 useritem 对的加强表示)。
Datasets
See Table.1 .

Future Directions
动态推荐
GNN 或 GCN 架构的 KG-based 推荐系统效果很好但是很耗时,因此可以被视作静态推荐。但在某些场景中,用户的兴趣会被社会事件或是朋友快速影响,这种情况下静态推荐无法理解实时的兴趣。可以利用动态图网络,来捕捉动态倾向。
多任务学习
KG-based 推荐系统可以自然地视为图中的链接预测,所以考虑知识图谱的特性可能可以提升基于知识图谱的推荐性能。比如,kg 中可能存在缺失事实,导致缺失关系或缺失实体,然而用户的倾向可能会因为这些事实的缺失而被忽略,这可能是推荐结果的决定性因素。Papers [54], [71] 显示训练知识图谱补全后的推荐系统会有更好的结果。其他工作利用多任务学习,通过用 kge 任务 [53] 和 item 关系规范任务 [55] 来训练推荐模块。充分利用其他 kg 任务如实体分类与分解来将知识转移从而提升推荐效果会很有趣。
跨领域推荐
跨领域的交互数据是不均衡的,比如亚马逊平台的书的集合是大于别的领域的。通过迁移学习技术,源领域的交互数据可以被目标领域所利用,从而更好地推荐。Zhang et al. [110] 提出了基于矩阵的方法来跨领域推荐,Zhao et al. [111] 提出了 PPGN,将不同领域的 user 和 products 放在一种图中,然后利用 useritem 交互图来跨领域推荐。尽管 PPGN 效果很好,但 useritem 图只包含了交互信息,没有考虑其他的关系。合并不同类型的 useritem 数据来进行跨领域推荐的前景不错。
知识增强的语言表示
将额外的知识集成到语言表示模型中来提升各种 nlp 任务,这样可以人为增强知识表示和文本表示。在新闻推荐系统或是其他基于文本的推荐任务中采用知识增强的文本表示很有前景,能有更好的表示学习,促进更准确的推荐。
Gitalking ...