一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。市面上很多关于数据挖掘算法的介绍深奥难懂,今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。

一、PageRank

当一篇论文被引用的次数越多,证明这篇论文的影响力越大。一个网页的入口越多,入链越优质,网页的质量越高。原理网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和一个网页的影响力:所有入链的页面的加权影响力之和。一个网页对其他网页的影响力贡献为:自身影响力/出链数量。用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问。所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。比喻说明1、微博一个人的微博粉丝数不一定等于他的实际影响力,还需要看粉丝的质量如何。如果是僵尸粉没什么用,但如果是很多大V或者明星


转载请注明地址:http://www.yingxianglia.com/yxlrw/6145.html