上述每个方向都值得单独介绍,但本文首先从查询推荐的角度将它们一起介绍,以便于横向比较每个场景的目标和方法的异同。 基于经典的分类方法,可以在用户搜索前、搜索中、浏览中、搜索后等各个状态阶段对查询推荐策略进行比较(本章不涉及讨论):
目标
以上引出了搜索查询推荐的两个主要目标:
完成
明确了查询推荐目标后,在实现方法上,各种类型的查询推荐也可以放在一起讨论,围绕其召回和排序进行讨论。 从触发条件来看,查询推荐分为两类:被动触发型(Based)和主动推荐型(Free);
基于
基于的方法主要是指具有明确触发词或动作的查询推荐类型。 场景触发需要基于用户操作。
查询建议
根据用户当前的搜索词前缀,实时猜测用户想要搜索的查询词,并做出查询推荐。 具体来说,召回阶段基于预先建立的前缀字典(例如前缀树)召回候选查询。 在更高级的层面上,可以使用类似的查询算法召回(基于内容或行为的q2q),兼容拼音、错别字等,在一定程度上放宽对一致前缀的要求。 在排序阶段,您可以简单地根据候选查询历史搜索pv、uv或点击/交易率进行排序,也可以根据简单的特征和模型(例如LR)估计查询点击率。
猜你想搜索(浏览)并选择
根据用户当前的搜索查询,推荐类似和略有不同的查询(猜测您要搜索什么)。 对于一般查询,可以推荐更加收敛的查询(比如明细选择)。 通常直接目标是坑位点的点击率,间接目标可以根据需要设计,比如搜索丰富度(比如人均搜索类别数)、总体交易效率(比如人均交易)等等。不同的目标对应不同的设计目的,后续需要有针对性的方案设计重点。
以浏览阶段的“猜你想搜索”策略为例,召回可以使用当前用户搜索词进行q2q召回。 您还可以使用 u2q2q(即用户过去搜索过的查询)作为 q2q 召回来增加个性化。 当然,需要通过类别、关键词限制等方法来保证历史行为查询和当前查询的关联性。 同样,如果需要更大的多样性,可以通过用户过去操作过的相关item(比如同一类别)间接找到这些item上经常点击的查询作为候选,即u2i2q; 同样,也可以使用q2i2q,根据实际需要即可。 做一些头脑风#。
在排序阶段,与实时性要求较高的query sug不同,“猜你想搜”可以设计稍微复杂的特征和模型。 与产品搜索排名相比,这里查询排名的主要特征簇包括:查询、用户、候选查询和上下文特征。 相关特征的设计可以参考《特征工程》。 此外,还需要针对特殊场景设计接近目标的特征。 至于训练数据,也与产品搜索排名类似。 例如,如果以点击率为目标,则曝光未点击查询为负,点击查询为正。
风向标
“风向标”或者说点击返回查询推荐,主要目标是提高搜索渗透率,引导其他场景下行为的用户转向搜索场景。 与 sug 和猜测你要搜索什么相比,该指标更多的是关于用户当前点击的项目或其他类型的内容。 相应地,在实现上,召回阶段主要以物品为锚点,如i2q、i2i2q、i2q2q,并添加个性化的u2i2q、u2q2q(间接材料需要有相关性保证,如通过类别)等。同样,排序端增加了一个item特征簇和对应的交叉特征,其他环节类似。
对于风向标场景查询的图像匹配,可以简单地使用查询中高点击率项目的第一张图像(需要进行风险过滤)。
自由的
这里的免费是指用户不需要特定的触发条件。 用户进入相应页面后即可触发查询推荐。 例如,进入搜索触发页面时,可以推荐历史搜索、热搜、猜猜搜索等。 首页的搜索框页面可以推荐底部。 图案。 另一个免费查询推荐是推送。 系统通过提醒栏主动向用户推荐查询,例如“您关注的‘笔记本电脑’有新更新”。 详细信息是:
历史搜索
通过对用户行为日志的离线实时统计,可以直接获取用户的历史搜索查询词,并根据行为时间直接向用户展示topN;
热搜(热门榜)
##当前热门搜索词、热门搜索主题、热门类别等,还可以直接将搜索频率和用户数量作为整体,进行非法查询过滤或操作审核配置以供前端展示。
猜你想搜索()& 底纹
在搜索中要搜索的猜测与在“浏览”中要搜索的猜测类似。 不同之处在于,用户当前的搜索查询少了一个。 在召回阶段可以更加发散,主要根据用户的历史搜索词和点击的产品。 重点关注u2i2q、u2q2q、u2c2q(c为用户偏好类别)等,Rank阶段也可以做相应调整。
用于搜索阴影的推荐链接通常可以重用“猜测您想要搜索”的逻辑。 最简单的方法是滚动浏览搜索框中的前 N 个结果。
查询推送
查询推送场景是推送的一种,是指围绕搜索词进行文案的主动弹出推送,引导当前未使用该应用的用户打开该应用。 实践证明,大多数情况下,主动推送用户感兴趣的查询比其他文案方案更高效。 相应的,查询推送场景中的召回和排序方法可以从上面的底纹中学习,猜测你要搜索什么,然后围绕符合条件的查询补充复制模板,发送到推送链接。
困难
查询推荐场景经常会遇到冷启动问题。 比如小场景本身就会存在行为数据不足的问题。 大场景通常一开始需要小流量AB。 短时间内无法获得足够的训练数据。 这种困境大多发生在等级阶段。 按照惯例,冷启动阶段召回可以简化,而且数量不会很大。 在Rank阶段前期,也可以不使用模型,而是直接利用查询历史性能来进行Rank socre,比如查询历史pv、ctr、cvr等。最后采用多样性重排的方法(参考重排中的特殊重排情况),避免排名靠前的查询过于热门和集中。 同时,我们通过这样简单的方法进行探索,保证查询##的多样性,积累更丰富的数据。
另一种处理冷启动或样本不足的方法是多场景联合优化。 可以参考最近淘宝的一篇论文Self-on Users' for Multi-in E-[1]。
另外,基于上述简单的冷启动方法,对用户进行分层(比如基于用户活跃度)进行查询推荐有时也能取得不错的效果。 这可以认为是添加了先验的用户活动偏好特征,以缓解数据不足带来的偏差问题。
概括
本文从搜索阶段、目标、实现方法等方面介绍了电子商务搜索查询推荐的一般应用方法,稍后将结合重要查询推荐场景的示例进行详细介绍。 值得一提的是,风险控制也是搜索查询推荐不可或缺的一部分。 例如,涉及KTV和政治话题的查询/图片需要被禁止。 这通常是通过准备相关的词包或专门设计在线识别模型来完成的。 毕竟,如果因为一个小策略的优化而导致应用被下架,那是得不偿失的。
----------------------------
系列文章传送门,欢迎关注@获取主动推送:
(14)电商搜索排名:重新排列
(13)电商搜索排名:精细排名
(12)电商搜索排序:粗排序
(11)电商搜索排名-番外:简化模型的演化(传统方法)
(10)电商搜索排名-额外:特征工程
(九)电商搜索排名:向量召回(Tips)
(八)电商搜索排名:向量召回(第2部分)
(7)电商搜索排名:向量召回(第1部分)
(6)电商搜索排名:召回率
(5)电商搜索排名:概述
(4)电商搜索:相关性
(3)电商搜索QP:Term
(2)电商搜索QP:查询重写
(1)电商搜索QP:查询类别预测
(零)电商搜索:前言
参考:
1. 顾Y,鲍文,欧德,等。 第 30 届 ACM 上的多输入 E-[C]// 的自助用户 & 。 2024:3828-3837。