Redis 与搜索热词推荐

本文解决一个非常普通的需求:在用户输入搜索关键词的过程中,系统给出搜索的推荐关键词。 实现的方式还是通过 redis,这次使用它 5 种数据结构中的 zset,也就是有序集合。

Redis的有序集合(zset)

关于有序集合不过多赘述,先给出传送门:Redis 有序集合。

在有序集合中,redis中某个key存储一个拥有多个value值的集合,并且集合中每个value都附带一个score,这个scorevalue的评分,有序集合中的value存储时候按照score排序,这样的效率叼叼的,具体实现方式推荐翻阅 《Redis设计与实现》。

搜索热词推荐

这个功能的样子很常见,在各种大网站的搜索框里,当你输入关键词输入到一半时会推荐给你搜索热词。

在美团技术团队2014年的博客文章中也曾提到过此类实现,具体可参考美团博客的文章 搜索引擎关键字智能提示的一种实现。

实现思路

一、简单的需求分析

对于一个搜索关键词的联想大抵分为几种情况,比如假设用户想要搜索 北京雾霾 这样一个概念。

但当他去搜索这个概念的时候,可能输入的是:

1.拼音: beijingwumai, beijingwu

2.首字母: bjwm、bj

3.文字前缀: 北京、北京雾

4.文字相关: 北京霾、霾、雾霾

5.完整输入: 北京雾霾

我们需要根据用户输入去建立索引,从索引找到用户最可能的搜索意图。

对于redis 来讲,就要确定此处的 key 和 value来建立索引。

二、建立索引

在本文描述的实现思路里,索引的建立我们分两步,这两部是衔接的:

1. 建立关键词指向搜索意图的索引

2. 建立关键词前缀指向关键词的索引

第一步,这里的关键词,就是一个搜索意图所包含的关键词,所以首先需要对搜索意图进行分词预处理。 比如 北京雾霾这个搜索意图所包含的关键词,是北京雾霾。这3个关键词我们需要建立3个key,这3个key都是 redis 中的有序集合key,都存储着一个集合,集合中的value就是搜索意图。为什么是个集合呢?很简单,因为一个关键词可能同时是不同搜索意图的关键词,比如北京这个关键词,除了是北京雾霾这个搜索意图的关键词,还可能是北京下雪这个搜索意图的关键词,所以,一个关键词会拥有一个有序集合key,这个key里存储了不同的搜索意图。 (这里可能有分词技术的瓶颈)

第二步,我们需要给第一步中提到的关键词,分别建立其各种前缀的索引。意思就是,如果用户输入 beijing或者beijin我们该怎么办?我们需要通过这个输入,来找到 北京这个关键词,进而通过关键词找到搜索意图,所以需要建立文字前缀以及拼音前缀到关键词的一个索引。同样的道理,一个关键词(如北京),它拥有多少前缀,就会建立多少个有序集合key,每个key里都保存着value集合。比如北京的前缀,那北京就在以为key的有序集合里,并且,其他的关键词如北方也可能在这个集合里。

三、搜索意图的权值

通过上面一节中所说的建立索引,我们就能通过beijing找到北京进而找到北京雾霾了。

但问题来了,既然每一个key都是一个集合,集合中有不同的value,当用户输入这个字的时候,我们是推荐给他北京还是北方呢?

解决这个问题,就需要 redis 有序集合中的另一个特性:通过score来排序。

我们建立索引时候使用有序集合,这样每一个key所对应的集合都是有序的,并且每一个集合中的value都有score值,比如这个key中的value北京北方是分别有score值的,建立索引时,将热词的score值按照热度调大,这样越热门的关键词score值就越大,系统给出搜索推荐的时候,取score值大的就行了。

四、推荐搜索热词

当用户输入beijing的时候,系统将会做两个动作: 1. 找出以beijing为前缀key的有序集合,并取出score值最大的几个value作为关键词。 2. 通过第1步取到的关键词,找出其对应的key,找出有序集合,并取出score值最大的几个value作为搜索热词的推荐结果并返回。

这样就能给出搜索推荐热词了。

总结

优化自己的分词以及权值分配,通过本文的实现思路就能给出很好的搜索热词推荐服务。

本文文字及图片出自 伯乐在线

余下全文(1/3)
分享这篇文章:

请关注我们:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注