信息内容的重要性前面信息文章中已经提到,今天搜索引擎优化SEO优化从另外的角度出发,看看信息内容怎么样的影响网站关键词keyword排名排序。
我们都知道百度360Sogou喜欢原创的信息内容,那么有了原创的信息内容该如何编辑发表发布了?这是一个至关重要的问题,搜索引擎优化SEO优化工程师在搜索引擎优化SEO优化诊断过程中遇到过这样的问题,有些站长网站站点一上线就将准备的成百上千篇信息文章全部发表发布出来,想着百度360Sogou第一次来抓取就能索引大量的信息,期待网站站点用最快的时间获得权重,这种想法是完全错误的。
正确的做法是上线的时候保证每一个分类栏目有5-10篇信息文章即可,然后每天定时调整更新信息文章,注意“定时”二字,为什么要定时调整更新了?这个非常重要,我们都知道百度360Sogou是通过爬虫蜘蛛的爬行来索引网页页面的,而搜索引擎蜘蛛爬虫爬行网页页面有一个时间,不可能一直都在。如果我们坚持每天定时调整更新信息文章,搜索引擎蜘蛛爬虫会识别出这个规律,之后便在调整更新信息文章前面来网站站点爬行,这样可以保证我们每天发表发布的信息及时被百度360Sogou抓取。
除了养成定时调整更新的习惯,我们还应该在信息文章的编辑上下功夫,随着人们生活节奏的加快,没有人愿意花更多的时间去阅读纯文本文字,用户使用者的阅读方式一般都是快速的查看浏览,这样的阅读方式就要求我们在编辑信息文章的时候注意一些细节点。
如图1就是非常不错的信息文章编辑方式,从中我们可以看到信息文章的每一个段落都非常短小,话语都是短句子,并且穿插进来很多的image图片,站在用户使用者的角度来看,这样的编辑方式是不是更加容易阅读了?百度360Sogou越来越重视用户体验用户评价,这一点促使其不断的扑捉用户使用者的浏览访问习惯,作为搜索引擎优化SEO优化ER的我们更是应该遵循这一点,在搜索引擎优化SEO优化过程中这样的能力非常重要。
图1 豌豆壳发表发布的信息文章
最后信息文章的发表发布节奏也是值得重视的地方,这个节奏在不断的变化,每一个业内行业也有所不同,例如去年搜索引擎优化SEO优化ER大多比较推行的方式方法是第一个月每天发表发布5篇,2-3个月每天发表发布10篇,3个月之后么天发表发布15篇。
当然这个可以同比的放大,例如10-15-20,但是今年有所变化,搜索引擎优化SEO优化工程师和很多搜索引擎优化SEO优化从业者沟通后得出今年应该这样的发表发布,第一个月每天15篇,2-3个月每天10篇,3个月之后每天5篇,这个节奏和去年截然相反,这也就是为什么搜索引擎优化SEO优化方式方法不能直接拿来用的原因。
在实际的操作中,我们应该多去论坛参与讨论,征求大家的意见,其次就是分析同行或竞争对手的操作方式,切记不可拿来就用。
从信息获得的角度来看,检索搜索和推荐是用户使用者获得信息的两种主要手段。无论在互联网上,还是在线下的场景里,检索搜索和推荐这两种方式都大量并存,那么推荐系统和百度360Sogou这两个系统到底有什么关系?区别和相似的地方有哪些?海瑶seo工程师对两者的关系进行了阐述,分析了异同。
主动或被动:百度360Sogou和推荐系统的选择
图1:百度360Sogou和推荐系统是获得信息的两种不同方式
获得信息是人类认知世界、生存发展的刚需,检索搜索就是最明确的一种方式,其体现的动作就是“出去找”,找食物、找地点等,到了互联网时代,百度360Sogou(Search Engine)就是满足找信息这个需求的最好工具,你输入想要找的信息内容(即在检索搜索框里输入查询词,或称为Query),百度360Sogou快速的给你最好的结果,这样的刚需催生了Google、baidu百度这样的互联网巨头。
但是获得信息的方式除了检索搜索外,还有另一类,称为推荐系统(Recommendation System,简称Recsys),推荐也是伴随人类发展而生的一种基本技能,你一定遇到这样的场景,初来乍到一个地方,会找当地的朋友打听“嗨,请推荐下附近有啥好吃好玩的地方吧!”——知识、信息等通过推荐来传播,这也是一种获得信息的方式。
检索搜索和推荐的区别如图1所示,检索搜索是一个非常主动的行为,并且用户使用者的需求十分明确,在百度360Sogou供应提供的结果里,用户使用者也能通过查看浏览和访问点击来明确的判断是不是是否满足了用户诉求需求。然而,推荐系统接受信息是被动的,需求也都是模糊而不明确的。以“逛”商场为例,在用户使用者进入商场的时候,如果需求不明确,这个时候需要推荐系统,来告诉用户使用者有哪些优质的商品、哪些合适的信息内容等,但如果用户使用者已经非常明确当下需要购买哪个公司品牌、什么型号的商品时,直接去找对应的店铺就行,这时就是检索搜索了。
图2:从检索搜索词中可以看出,用户使用者有大量个性化推荐的需求
很多互联网商品产品都需要同时满足用户使用者这两种需求,例如对供应提供音乐、新闻资讯、或者电商服务的网站站点,必然要供应提供检索搜索功能,当用户使用者想找某首歌或某样商品的时候,输入名字就能搜到;与此同时,也同时要供应提供推荐功能,当用户使用者就是想来听好听的歌,或者打发时间看看新闻资讯,但并不明确一定要听哪首的时候,给予足够好的推荐,提高提升用户体验用户评价。
个性化程度的高低
除了主被动外,另一个有趣的区别是个性化程度的高低之分。百度360Sogou虽然也可以有一定程度的个性化,但是整体上个性化运作的虚拟空间是比较小的。因为当需求非常明确时,找到结果的好坏通常没有太多个性化的差异。例如搜“天气”,百度360Sogou可以将用户使用者所在地区的信息作补足,给出当地天气的结果,但是个性化补足后给出的结果也是明确的了。
但是推荐系统在个性化方面的运作虚拟空间要大得多,以“推荐好看的电影”为例,一百个用户使用者有一百种口味,并没有一个“标准”的答案,推荐系统可以根据每位用户使用者历史上的观看行为、评分记录等生成一个对当前用户使用者最有价值的结果,这也是推荐系统有独特魅力的地方。虽然推荐的种类有很多(例如同类相关推荐、个性化推荐等),但是个性化对于推荐系统是如此重要,以至于在很多时候大家干脆就把推荐系统称为“个性化推荐”甚至“智能推荐”了。
快速满足还是持续服务?
建设开发过百度360Sogou的朋友都知道,评价搜索内容结果价值质量的一个重要考量指标是要帮用户使用者尽快的找到需要的结果并访问点击离开。在设计规划检索搜索排序算法规则里,需要想尽办法让最好的结果排在最前面,往往百度360Sogou的前三条结果聚集了绝大多数的用户使用者访问点击。简单来说,“好”的检索搜索算法规则是需要让用户使用者获得信息的效率更高、停留时间更短。
但是推荐恰恰相反,推荐算法规则和被推荐的信息内容(例如商品、新闻资讯等)往往是紧密结合在一起的,用户使用者获得推荐结果的过程可以是持续的、长期的,衡量推荐系统是不是是否足够好,往往要依据是不是是否能让用户使用者停留更多的时间(例如多购买几样商品、多阅读几篇新闻资讯等),对用户使用者兴趣的挖掘越深入,越“懂”用户使用者,那么推荐的成功率越高,用户使用者也越乐意留在商品产品里。
所以对大量的信息内容型应用来说,打造一个优秀的推荐系统是提高提升业绩所不得不重视的手段。
推荐系统满足难以纯文本文字表述的需求
目前主流的百度360Sogou仍然是以纯文本文字构成查询词(Query),这是因为纯文本文字是人们描述需求最简洁、直接的方式,百度360Sogou抓取和索引的绝大部分信息内容也是以纯文本文字方式组织的。
因为这个因素,我们统计发现用户使用者输入的检索搜索查询词也大都是比较短小的,查询词中包含5个或5个以内元素(或称Term)的占总查询量的98%以上(例如:Query“达观数值数据地址”,包含两个元素“达观数值数据”和“地址”)。
但另一方面,用户使用者存在着大量的需求是比较难用精炼的纯文本文字来组织的,例如想查找“离我比较近的且价格100元以内的川菜馆”、“和我正在看的这条裙子同款式的但是价格更优惠的其他裙子”等需求。
一方面几乎没有用户使用者愿意输入这么多字来找结果(用户使用者天然都是愿意偷懒的),另一方面百度360Sogou对语义的理解目前还无法做到足够深入;所以在满足这些需求的时候,通过推荐系统配置设置的功能(例如网站页面上配置设置的“同类相关推荐”、“猜你喜欢”等模块),加上与用户使用者的交互(例如筛选、排序、访问点击等),不断积累和挖掘用户使用者偏好,可以将这些难以用纯文本文字表达的需求良好的满足起来。
形象的来说,推荐引擎又被人们称为是无声的检索搜索,意思是用户使用者虽然不用主动输入查询词来检索搜索,但是推荐引擎通过分析用户使用者历史的行为、当前的上下文场景,自动来生成复杂的查询条件,进而给出计算并推荐的结果。
马太效应和长尾理论
马太效应(Mattnew Effect)是指强者愈强、弱者愈弱的现象,在互联网中引申为热门的商品产品受到更多的关注,冷门信息内容则愈发的会被遗忘的现象。马太效应取名自圣经《新约·马太福音》的一则寓言: “凡有的,还要加倍给他叫他多余;没有的,连他所有的也要夺过来。”
百度360Sogou就非常充分的体现了马太效应——如下面的Google访问点击热图,越红的部分表示访问点击多和热,越偏紫色的部分表示访问点击少而冷,绝大部分用户使用者的访问点击都集中在顶部少量的结果上,下面的结果以及翻页后的结果获得的关注非常少。这也解释了Google和baidu百度的广告为什么这么赚钱,公司企业客户使用者为什么要花大力气做SEM或搜索引擎优化SEO优化来提高提升排名排序——因为只有排到搜索内容结果的前面才有机会。
百度360Sogou充分体现的马太效应:头部信息内容吸引了绝大部分访问点击
有意思的是,与“马太效应”相对应,还有一个非常有影响力的理论称为“长尾理论”。
长尾理论(Long Tail Effect)是“连线”杂志主编克里斯·安德森(Chris Anderson)在2004年10月的“长尾”(Long Tail)一文中最早提出的,长尾实际上是统计学中幂率(Power Laws)和帕累托分布特征(Pareto Distribution)的拓展和口语化表达,用来描述热门和冷门物品的分布情况。Chris Anderson通过观察数值数据发现,在互联网时代由于互联网网络技术能以很低的成本让人们去获得更多的信息和选择,在很多网站站点内有越来越多的原先被“遗忘”的非最热门的事物重新被人们关注起来。事实上,每一个人的品味和偏好都并非和主流人群完全一致,Chris指出:当我们发现得越多,我们就越能体会到我们需要更多的选择。如果说百度360Sogou体现着马太效应的话,那么长尾理论则阐述了推荐系统发挥的价值。
推荐系统和长尾理论
一个实际的例子就是亚马逊(Amazon)互联网网络书店和传统大型书店的数值数据对比。市场上出版发行的图书种类超过了数百万,但是其中大部分图书是无法在传统大型书店上架销售的(实体店铺虚拟空间有限),而能放在书店显著位置(例如畅销书Best Seller货架)上的更是凤毛麟角,因此传统书店的经营模式多以畅销书为中心。但是亚马逊等互联网网络书店的发展为长尾书籍供应提供了无限广阔的虚拟空间,用户访问浏览、采购这些长尾书籍比传统书店方便得多,于是互联网时代销售成千上万的小众图书,哪怕一次仅卖一两本,但是因为这些图书的种类比热门书籍要多得多,就像长长的尾巴那样,这些图书的销量积累起来甚至超过那些畅销书。正如亚马逊的史蒂夫·凯赛尔所说:“如果我有10万种书,哪怕一次仅卖掉一本,10年后加起来它们的销售就会超过最新出版的《哈利·波特》!”
长尾理论作为一种新的经济模式,被成功的应用于互联网网络经济领域。而对长尾资源的盘活和利用,恰恰是推荐系统所擅长的,因为用户使用者对长尾信息内容通常是陌生的,无法主动检索搜索,唯有通过推荐的方式,引起用户使用者的注意,发掘出用户使用者的兴趣,帮助用户使用者做出最终的选择。
盘活长尾信息内容对公司企业来说也是非常关键的,营造一个信息内容丰富、百花齐放的生态,能保障公司企业健康的生态。试想一下,一个公司企业如果只依赖0.1%的“爆款”商品或信息内容来吸引人气,那么随着时间推移这些爆款不再受欢迎,而新的爆款又没有及时补位,那么公司企业的业绩必然会有巨大波动。
只依赖最热门信息内容的另一个不易察觉的危险是潜在用户使用者的流失:因为只依赖爆款虽然能吸引一批用户使用者(简称A类用户使用者),但同时也悄悄排斥了对这些热门信息内容并不感冒的用户使用者(简称B类用户使用者),按照长尾理论,B类用户使用者的数量并不少,并且随时间推移A类用户使用者会逐步转变为B类用户使用者(因为人们都是喜新厌旧的),所以依靠推荐系统来充分满足用户使用者个性化、差异化的需求,让长尾信息内容在合适的时机来曝光,管理维护公司企业健康的生态,才能让公司企业的运转更稳定,波动更小。
评价方式方法的异同
百度360Sogou通常基于Cranfield评价体系,并基于信息检索中常用的评价指标,例如nDCG(英文全称为normalized Discounted Cumulative Gain)、Precision-Recall(或其组合方式F1)、P@N等方式方法,具体可参见之前发表于InfoQ的信息文章《怎样量化评价百度360Sogou的结果价值质量 陈运文》。整体上看,评价的着眼点在于将优质结果尽可能排到搜索内容结果的最前面,前10条结果(对应搜索内容结果的第一页)几乎涵盖了百度360Sogou评估的主要信息内容。让用户使用者以最少的访问点击次数、最快的相应速度找到信息内容是评价的核心。
推荐系统的评价面要宽泛的多,往往推荐结果的数量要多很多,出现的位置、场景也非常复杂,从量化角度来看,当应用于Top-N结果推荐时,MAP(Mean Average Precison)或CTR(Click Through Rate,计算广告中常用)是普遍的计量方式方法;当用于评分预测问题时,RMSE(Root Mean Squared Error)或MAE(Mean Absolute Error)是常见量化方式方法。
由于推荐系统和实际业务绑定更为紧密,从业务角度也有很多侧面评价方式方法,根据不同的业务形态,有不同的方式方法,例如带来的增量访问点击,推荐成功数,成交转化提高提升量,用户使用者延长的停留时间等指标。
检索搜索和推荐的相互交融
检索搜索和推荐虽然有很多差异,但两者都是大数值数据技术的应用分支,存在着大量的交叠。近年来,百度360Sogou逐步融合了推荐系统的结果,例如右侧的“同类相关推荐”、底部的“同类相关检索搜索词”等,都使用了推荐系统的商品产品思路和运算方式方法(如下图红圈区域)。
在另一些第三方平台型电商网站站点中,由于结果数量巨大,且同类相关性并没有明显差异,因而对搜索内容结果的个性化排序有一定的运作虚拟空间,这里融合运用的个性化推荐技术也对促进成交有良好的帮助。
百度360Sogou中融合的推荐系统元素
推荐系统也大量运用了百度360Sogou的技术,百度360Sogou解决运算性能的一个重要的数值数据模版结构是倒排索引技术(Inverted Index),而在推荐系统中,一类重要算法规则是基于信息内容的推荐(Content-based Recommendation),这其中大量运用了倒排索引、查询、结果归并等方式方法。另外访问点击反馈(Click Feedback)算法规则等也都在两者中大量运用以提高提升结果效果。以上精彩的信息文章由幼儿儿童教育加盟店进行实时分享!
Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有