蘑菇先生学习记


  • 首页

  • 分类

  • 关于

  • 归档

  • 标签

  • 搜索
蘑菇先生学习记

KDD'21 | 淘宝搜索中语义向量检索技术

发表于 2021-10-07 | 分类于 搜索

今天得空带来一篇分享,KDD’21的Applied Data Science Track中,淘宝搜索发表的一篇EBR文章[9]:Embedding-based Product Retrieval in Taobao Search。论文要讨论的几大问题提前预览下:

  • 搜索场景中,query如何充分地进行语义表征?电商平台的query通常是短query,如何对有限长度的query进行充分的语义表征?
  • 搜索场景中,用户历史行为序列如何建模?如何防止引入和当前query无关的历史行为导致相关性问题?
  • 搜索场景中,基于向量的检索系统(EBR)如何保证相关性? EBR是基于向量的检索,不是完全匹配的检索,很容易检索到和当前query不相关的商品,那么该如何保证相关性?
阅读全文 »
蘑菇先生学习记

Recsys2021 | 推荐系统论文整理和导读

发表于 2021-10-07 | 分类于 推荐系统

此前整理过KDD21上工业界文章,本文主要整理和分类了Recsys 2021的Research Papers和Reproducibility papers。按照推荐系统的研究方向和使用的推荐技术来分类,方便大家快速检索自己感兴趣的文章。个人认为Recsys这个会议重点不在于”技术味多浓”或者”技术多先进”,而在于经常会涌现很多新的观点以及有意思的研究点,涵盖推荐系统的各个方面,例如,Recsys 2021涵盖的一些很有意思的研究点包括:

  • 推荐系统的信息茧房和回音室问题的探讨,有4篇文章探讨了社交媒体推荐、音乐推荐和视频推荐中的信息茧房和回音室效应。很少见到在学术会议上专门讨论这样深刻的问题,值得一读。
    阅读全文 »
蘑菇先生学习记

SIGIR'21|SGL基于图自监督学习的推荐系统

发表于 2021-05-23 | 分类于 GNN

本篇文章主要介绍王翔、何向南老师团队在SIGIR2021上发表的文章SGL,Self-supervised Graph Learning for Recommendation[1]。这篇文章提出了一种应用于用户-物品二分图推荐系统的图自监督学习框架。核心的思想是,对输入的二分图,做结点和边的dropout进行数据增强,增强后的图可以看做原始图的子视图;在子视图上使用任意的图卷积神经网络,如LightGCN[2]来提取结点的表征,对于同一个结点,多个视图就能形成多种表征;然后借鉴对比学习[5]的思路,构造自监督学习任务,即:最大化同一个结点不同视图表征之间的相似性,最小化不同结点表征之间的相似性;最后对比学习自监督任务和推荐系统的监督学习任务联合起来,构成多任务学习的范式。

阅读全文 »
蘑菇先生学习记

KDD 21 | 工业界搜推广nlp论文整理

发表于 2021-10-07

本文整理了KDD21的Accepted Papers[1]中,工业界在搜索、推荐、广告、nlp上的文章。整理的论文列表比较偏个人口味,选取的方式是根据论文作者列表上看是否是公司主导的,但判断比较偏主观,存在漏掉的可能。盘点的方式主要按照公司和方向来划分,排名不计先后顺序。

阅读全文 »
蘑菇先生学习记

KDD'19|ConcepT 腾讯概念标签体系

发表于 2021-05-20 | 分类于 自然语言处理

最近在调研内容理解相关的工作,发现了KDD 2019上,腾讯和阿尔伯塔大学刘邦大佬[2]合作的工作 A User-Centered Concept Mining System for Query and Document Understanding at Tencent [1],以用户为中心的概念挖掘系统在查询和文档理解中的应用。这篇文章信息量非常大,是一篇非常偏实践性的文章,值得深读。网上关于这篇文章的介绍主要是参考文献[3,4],其关于背景和技术的介绍比较到位,但是对整个工作脉络以及关键技术细节的梳理不太够。故借此机会,主要按照原文的行文思路,重新梳理下整个工作流程以及一些在内容理解中可能会用到的关键技术。

阅读全文 »
蘑菇先生学习记

特征交互新思路| 阿里 Co-action Network论文解读

发表于 2021-01-10 | 分类于 推荐系统

这篇文章主要介绍周国睿大佬的新工作:CAN: Revisiting Feature Co-Action for Click-Through Rate Prediction [1]。这个工作提供了一种新的特征交互思路,在特征工程上手动特征交叉和模型上自动特征交叉之间做了折衷,也是记忆性和泛化性的互补。可以认为是开创了特征交互的新路线。

阅读全文 »
蘑菇先生学习记

排序学习调研

发表于 2018-12-25 | 分类于 推荐系统

排序是对一组物品列表按照某种方式进行排序,来最大化整个列表的效用的过程,广泛应用于搜索引擎、推荐系统、机器翻译、对话系统甚至计算生物学。一些监督机器学习技术经常被广泛应用在这些问题中,这些技术称作排序学习技术。本文会对排序学习进行调研。

阅读全文 »
蘑菇先生学习记

推荐系统算法调研

发表于 2018-05-03 | 分类于 推荐系统

本文对目前流行的推荐系统算法进行调研,主要参考三篇综述和一本手册。综述包括:推荐系统主流算法综述、基于协同过滤技术的推荐系统算法综述、基于深度学习的推荐系统算法综述。手册是经典推荐系统参考手册。另外,还会不断跟进目前主流和前沿的推荐技术,本调研会不断更新。

阅读全文 »
蘑菇先生学习记

基于信息传递框架的图自编码范式

发表于 2020-12-06 | 分类于 GNN

本系列首先会介绍王翔老师[1]和何向南老师[2]在WSDM 2020/CIKM 2019上的Tutorial[3]:Learning and Reasoning on Graph for Recommendation中所涉及的“基于信息传递框架的图自编码范式”,即:基于信息传递框架来做结点的图表征。这个范式能够将GNN各组件拆解开来,并各自迭代和优化,对于模型优化迭代和编程实践有非常好的启发。

后续我会基于这样的范式,重新梳理图表示学习在推荐系统中常见的用户-物品交互数据上的建模方法。我们可以将用户-物品的交互数据看做是关于user-item的二分图(Bipartite Graph),这样可以基于GNN的方法进行user和item嵌入的学习。我将重点探讨如何基于信息传递框架来拆解目前主流的二分图表示学习方法,不同的方法是如何针对不同的组件做改进和迭代,我会对8篇顶会文章的改进脉络做一个系统性地梳理。

本篇文章将主要介绍基于信息传递框架的图自编码范式。

阅读全文 »
蘑菇先生学习记

PTMs| 2020 NLP预训练模型综述

发表于 2020-11-28 | 分类于 NLP

本篇文章主要介绍邱锡鹏老师在2020年发表的一篇预训练模型的综述:Pre-trained Models for Natural Language Processing: A survey [1]。

阅读全文 »
12…7
xuetf

xuetf

70 日志
13 分类
127 标签
RSS
链接
  • 小王子
  • My Github
© 2021 xuetf