百度算法大揭秘

研究搜索引擎的算法是每个网络营销人员的必修课,那么我们今天就来看看由百度前研发部架构师、达内华南区营销总监、个人搜索引擎“360搜藏”——李韧李老师给我们带来的百度算法大揭秘。以下是李老师的分享内容: 目前主流的搜索引擎是基于参照了经典的学术引文机制:文献A被文献B引用,则相当于文献A的重要性增加。应用于排序算法上,当网页A具有来自网页B的链接时,就认为网页B投了网页A一票,增加了网页A的重要性,若网页B的重要性高,那么网页A的重要性也相应提高。重要性高的网页可获得较高的网页PageRank值,从而在搜索结果中可获较高的排位。   问题一: 加入“链接工厂”(亦称大量链接机制)是由大量网页交叉链接而构成的一个网络系统。一个站点加入“链接工厂”后,它可得到来自该系统中所有网页的链接,同时作为交换,它需要“奉献”自己的链接,以此方法来提升链接得分。 方法改进: 发现坏的种子网站,并将该网站纳入反向PageRank算法,即当网页A具有来自网页B的链接时,就认为网页B投了网页A一负票,降低了网页A的重要性,若网页B的重要性低,那么网页A的重要性也相应降低。重要性低的网页可获得较低的网页PageRank值,从而在搜索结果中处于靠后的位置。   问题二: 网络中的网页被引用的数量要受到这个网页存在时间长短的影响,如果一个网页刚发布,那么其他网页的编辑者还不知道这个网页,所以新的网页被引用很少,根据PageRank的基本思想我们可以知道,这些新的网页PR值很小,这表示PageRank算法歧视新的网页。 改进方法: 为了避免PageRank算法对新网页的歧视性,需要考虑网页的发布时间。网页的发布时间能够表示一个网页的新旧程度,因此如果将网页的发布时间融入到算法里面,可以让算法能够根据网页的新旧程度进行改进,补偿新网页的PageRank值。   问题三: 传统的PageRank算法只是通过网页之间的链接关系来分配网页的权威值,但是实际的网页中,往往存在一些垃圾链接或者广告链接,这些链接与网页本身内容没有关系,用户进行冲浪时就会产生主题漂移现象。 改进方法: 考虑到传统的PageRank算法在网页传递权威值的过程中只考虑了网页之间的链接关系,会产生主题漂移现象,我们得根据网页的内容相关度计算出一个权值,并将这个作为影响网页权威值分配的一个因素。当前阶段,获取图片信息和视频声音信息的方法是参考它们的文字描述,因此可以用一个网页的文字信息来判断一个网页的内容。为了计算网页之间的相关度,把网页作为文档进行处理,然后计算网页之间的相关度就变成了计算网页中文字信息的相关度。   问题四: 忽略用户主观选择行为。PageRank算法客观的计算网页的重要度,而没有考虑用户的主观选择行为。而实际上,用户的主观选择行为往往是用户的兴趣取向,通常搜索引擎的用户不会随机地点击搜索结果列表上的链接,而是做出某种有目的性的判断和选择,用户更加趋向于点击那些与他们的需求相吻合的链接 改进方法: 当用户通过搜索引擎进行信息搜索时,用户输入查询关键词,搜索引擎返回查询列表,然后用户会粗略阅读列表中内容摘要,如果用户感觉某一条信息符合自己需求就会选择点击。因此,一个网页被用户选择点击的次数可以反映出这个网页受用户喜欢的程度。对于重要的网页,用户往往会选择点击,而对于垃圾网页(广告网页等),用户点击次数就会很少。将用户的这种主观选择行为融入到排序算法之中的方法更令用户满意。   重点是我们要知道百度改进的算法在分配PageRank值时不是平均分配,而是根据主题相关度、时间权重和用户反馈三个因素来进行分配,从而避免传统PageRank 算法的缺陷。 用网络冲浪模型来分析新的算法,当冲浪者位于一个网页中时,他会根据出链网页与当前网页的主题相关度、出链网页的时间反馈值和用户反馈值来决定选择浏览下一个网页。冲浪者选择的网页与当前网页应该具有较大的主题相关度,因此能够有效避免主题漂移现象;冲浪者浏览网页时考虑了网页的时间反馈值,有更大几率浏览新的网页;而用户反馈值是大多数冲浪者给予当前冲浪者的一个提示信息。   那么又有一个新问题出现了:为什么我每天发网页、狂发外链,还挂了流量点击软件,网站排名还是不见提升? 其实每天发网页确实可以增加新网页的曝光,但是并不是新网页越新就越排名靠前,有些新网页其本身质量较差,那么为其补偿的值应该相对较小。 如果新的网页比较受人们欢迎,其重要程度就会逐渐增加,被别的网页引用的总数也会增加。因此重要的新网页与质量差的新网页相比较,前者其权威值增长相对较快,如果两者同一时间发布,那么前者PR 值比后者大。 因此我们在给予网页时间补偿时考虑当前网页的PR 值,即越重要的新网页就会获取越大的时间补偿。 结合网页被搜索引擎搜索到的次数和网页最近的一次PageRank值,计算改进的时间权重因子,这样就可以过滤新网页中的低质量网页。   百度算法终极揭秘!!!由于PageRank算法是根据网络静态链接的网状结构来分析网页的重要性,这样会出现有很多链接但很少或几乎没有流量通过这些链接的情况。同时,也给网页和网站为了提高自身的重要性,通过交换链接等方法进行作弊提供了可乘之机。为了解决这些弊端,百度认为只有当有流量通过的时候,链接的存在才会有真实的意义。此外,从一个A网站通过超链接到另一个B网站的流量越大,说明A网站对B网站的贡献越大,B网站更具有吸引力。 举个例子来说明,一个父亲有10个苹果,这是他的PageRank值。他还有五个孩子。孩子和父亲相当于网页,父子关系相当于互联网上的超链接,孩子是父亲通过链接指向的页面。那么根据PageRank算法思想,父亲对待每个孩子都是一视同仁的,他拥有的十个苹果应该按照孩子的数目进行平均分配,即每个孩子得到的苹果应该是两个。 但实际情况中,平均分配是很少见的。可能老大更懂事,父亲给了他6个苹果,老幺更讨人喜欢,父亲给他4个苹果,其他的孩子一个苹果都没有。父亲给老大和老幺的苹果是通过超链接的流量。通过父亲分配苹果的方式,可以得知每个孩子在父亲心中的份量,父亲对老大最满意,其次是老幺,剩下的都一样。这就是百度改进算法的基本思想。超链接上有流量通过,这条超链接才有意义,有价值。否则,即使再多的链接,也无济于事。超链接上通过流量的多少,体现给予流量的网站对被给予流量网站的重视程度,从另一个角度,体现了被给予流量网站的自身价值。更多网络营销干货,详见微信公众号“达内科技微平台”(或“qq2162606306”)。

回复