回复161#lishuanzhu唔,书单又加了。好吧,我的叙述方式不太好,可能听起来象是否定楼主,真心道个歉。楼主的积极、上进和分享的精神绝对应该赞扬。不过我那些否定并非针对楼主,而是劝诫那些后来者不要盲目跟随楼主,用这个帖子的书单去入门,否则是肯定实现不了自己的目标。因为楼主有他自己的特殊环境,比如电工背景,比如单位限定使用SAS,还有楼主的旺盛精力等。其它人未必适合。
122楼清单有几个问题,一个是多,书多到肯定看不完。第二是杂,科普级与专业级混杂,忽难忽易,而非循序渐进很容易产生挫败感。第三是缺,楼主因为自己的特定应用环境导致部分内容缺失。
如果让我来开书单,会是这样的。
首先,自然是科普读物级的入门,对大数据有个直观了解。
《大数据时代:生活、工作与思维的大变革》,这本书比较忽悠,但作为普级读物还可以接受。
然后,稍微正经一点的是Nate Silver的《信号与噪声》。这仍然是普级读物,作者关于美国政治选举的预测非常牛逼,书也不错。
还有一本不怎么流行但很不错的,郑毅的《证析,大数据与基于证据的决策》,里面关于大数据与决策的内容很值得一看。
不直接相关但很受益的,一本是我前面提过的Melanie Mitchell的《复杂》,
还有她的牛逼老师侯世达那本巨牛逼的《哥德尔、艾舍乐、巴赫--集异璧之大成》。
这几本看完,直观感受有了,接下来就是专业训练。
第一当然是概率与统计。
入门首推钟开莱的《初等概率论》,钟的传奇可以说一萝筐,自己去谷歌。
他还有一本《概率论教程》,难度大一点,前面还没过瘾的可以看看。
或是George Casella和Roger L.Berger的《Statistical Inference》,很经典的概率论教材
但是个人认为古典概率不需要学特别深,用到时候再说。贝叶斯网络在数据分析与决策中更重要。
张连文 《贝叶斯网引论》很适合入门,还有茆诗松 《贝叶斯统计》 也是。
当然,更通俗易懂的书在122楼给出了:Peter Norvig / Stuart Russell《人工智能:一种现代方法》。Google技术宅写的书,一定要细读。
统计就到这。再多就容易滋生拖延。
之后我认为应该学的,应当是Python。开源的好处,首先当然是免费,其次就是更新快,新的算法很快会有包出来。因为这两个原因,Python作为数据分析工具已经非常流行。NumPy有不弱于Matlab的强大功能。
Python的书很多,我只推荐一本入门的,《Beginning Python From Novice to Professional,2nd.Edition》,中译名就是《Python编程基础》。里面不仅有基础语法,还有十个很详细的应用例子。这个其实电工应该更有发言权。
Philipp K. Janert有一本《Data Analysis with Open Source Tools》,里面的所有算法,都是用Python实现的。学完了统计,再学了Python编程,就可以用这本书来试水了。楼主在122楼把这本书放到可视化下面去,也没提到Python,可能是还没有读到。
接下来是R。R作为用于统计的语言工具,学习方法也是见仁见智。这里就不特别推荐了,只要统计这块熟,上手不会很难。
不过在数据可视化里要点到Hadley Wickham的《ggplot2:数据分析与图形艺术》,这是关于R的数据可视化。
关于可视化,不止是将数据分析结果可视化呈现一个作用。可视另一个价值在于辅助分析。很多数据在视觉化呈现以后,会暴露很多之前没有意识的信息,非常有用。现在比较多的应用是对机器日志文件的可视化分析,能发现集群或系统的潜在问题,或是防范外来的攻击。122楼几本可视化一般般。《数据可视化之美》是案例介绍,作为入门读物可以。
浙大陈为刚出了一本《大数据丛书:数据可视化 》,还在路上,没看到。但陈为的讲座听过,不错。
可视化的专业工具其实很多,除了R这些自带的功能,还有商业软件Tableau,还有比如说基于HTML 5的D3.js,很流行的开源语言processing等。这个主要还是看自己对哪个更感兴趣,觉得更好上手。
最后一点,现在很少在大数据里有人提及,但很重要的底层知识,就是关于并行与分布处理。因为大数据分析里,计算力很重要。现在个人都有能力完成开源的集群系统,这是多核。另一个就是GPU通用计算。一本刚出的书《大规模并行处理器编程实战(第2版)》,也值得一看。这个不需要精通,但需要知道自己分析数据时候的瓶颈在哪里。至于Hadoop这种底层的东西,企业级的数据布署与应用,属于基础设施,对数据分析师来说应该是透明的,稍作了解即可。
以上是个人对大数据入门的浅见。基本上都没有很高深的内容。如果完成以上书目,基本算是入门,而且对如何提高应该有自己的见解,不需要更多的引导了。总之大数据一定是和行业紧密结合。数据除了处理,一定要明白映射到现实的含义。否则很容易只见树林不见森林。