大数据扫盲 _____更新在81#__书单更新在122#__更新一些感受#

  • l
    lobytao20
    书单不错,点赞,拿走学习了
  • t
    tinerli
    内容营养贴马克
  • z
    zhenyue
    关于数据存取模型,我觉得你们不妨看下关系理论出现之前的世界。

    那个时代大家都用文件系统,数据结构五花八门,你们提到的列式、图、键值对等等方式在这些思想的想象力面前简直就是小孩子,而且人家早都在40年前就实现了这些东西。

    只要是数据结构中有的算法,那个时代就有一种对应的数据存取模型。

    后来大家都受不了了,太TM多样化了。

    开始玩标准化数据存取模型,有网状数据库、层次型数据库。

    后来只有关系型的获得了共识。

    这么多年了,你们以为就这几个新词就把前面的路都否了?

    我看这些厂商是没地儿骗钱了吧。
  • z
    zhenyue
    而且我最近听了个新词儿,叫“数据控” 我想应该就是你们这些人。
  • j
    jingmouren
    回复122#lishuanzhu


    信息论 贝叶斯方面的没列上 应该也有关
  • j
    jqyy
    这个叫做轮回,或曰螺旋式前进。
  • E
    Ernest
    那个书单是数据挖掘的,而且太底层,太电工。楼主对大数据概念的理解有很大问题,书单里只有《人工智能》那本书是必看的。按这个份书单读下来最多也就是大数据产业最基础层面的电工,对真正的关联发拙意义不大。不仅贝叶斯网络没提到,数据可视化分析也没有提到。
  • l
    lishuanzhu
    回复160#Ernest


    而且书单头已经明确说明这是数据挖掘方面的,对数据处理方便我除了Hadoop在最下面提了一下,其他没有说 书单里面都有的。。。 。。。 数据可视化有三本,贝叶斯这么经典的算法怎么可能没有,很明显这个领域你不熟悉
  • l
    lishuanzhu
    回复158#jingmouren


    参见楼上,信息论有列的。。。。 。 哥哥,认真看
  • m
    mkkmkk
    mark回去仔细看
  • E
    Ernest
    回复161#lishuanzhu

    唔,书单又加了。好吧,我的叙述方式不太好,可能听起来象是否定楼主,真心道个歉。楼主的积极、上进和分享的精神绝对应该赞扬。不过我那些否定并非针对楼主,而是劝诫那些后来者不要盲目跟随楼主,用这个帖子的书单去入门,否则是肯定实现不了自己的目标。因为楼主有他自己的特殊环境,比如电工背景,比如单位限定使用SAS,还有楼主的旺盛精力等。其它人未必适合。
    122楼清单有几个问题,一个是多,书多到肯定看不完。第二是杂,科普级与专业级混杂,忽难忽易,而非循序渐进很容易产生挫败感。第三是缺,楼主因为自己的特定应用环境导致部分内容缺失。

    如果让我来开书单,会是这样的。
    首先,自然是科普读物级的入门,对大数据有个直观了解。
    《大数据时代:生活、工作与思维的大变革》,这本书比较忽悠,但作为普级读物还可以接受。
    然后,稍微正经一点的是Nate Silver的《信号与噪声》。这仍然是普级读物,作者关于美国政治选举的预测非常牛逼,书也不错。
    还有一本不怎么流行但很不错的,郑毅的《证析,大数据与基于证据的决策》,里面关于大数据与决策的内容很值得一看。
    不直接相关但很受益的,一本是我前面提过的Melanie Mitchell的《复杂》,
    还有她的牛逼老师侯世达那本巨牛逼的《哥德尔、艾舍乐、巴赫--集异璧之大成》。

    这几本看完,直观感受有了,接下来就是专业训练。
    第一当然是概率与统计。
    入门首推钟开莱的《初等概率论》,钟的传奇可以说一萝筐,自己去谷歌。
    他还有一本《概率论教程》,难度大一点,前面还没过瘾的可以看看。
    或是George Casella和Roger L.Berger的《Statistical Inference》,很经典的概率论教材
    但是个人认为古典概率不需要学特别深,用到时候再说。贝叶斯网络在数据分析与决策中更重要。
    张连文 《贝叶斯网引论》很适合入门,还有茆诗松 《贝叶斯统计》 也是。
    当然,更通俗易懂的书在122楼给出了:Peter Norvig / Stuart Russell《人工智能:一种现代方法》。Google技术宅写的书,一定要细读。
    统计就到这。再多就容易滋生拖延。

    之后我认为应该学的,应当是Python。开源的好处,首先当然是免费,其次就是更新快,新的算法很快会有包出来。因为这两个原因,Python作为数据分析工具已经非常流行。NumPy有不弱于Matlab的强大功能。
    Python的书很多,我只推荐一本入门的,《Beginning Python From Novice to Professional,2nd.Edition》,中译名就是《Python编程基础》。里面不仅有基础语法,还有十个很详细的应用例子。这个其实电工应该更有发言权。
    Philipp K. Janert有一本《Data Analysis with Open Source Tools》,里面的所有算法,都是用Python实现的。学完了统计,再学了Python编程,就可以用这本书来试水了。楼主在122楼把这本书放到可视化下面去,也没提到Python,可能是还没有读到。

    接下来是R。R作为用于统计的语言工具,学习方法也是见仁见智。这里就不特别推荐了,只要统计这块熟,上手不会很难。
    不过在数据可视化里要点到Hadley Wickham的《ggplot2:数据分析与图形艺术》,这是关于R的数据可视化。
    关于可视化,不止是将数据分析结果可视化呈现一个作用。可视另一个价值在于辅助分析。很多数据在视觉化呈现以后,会暴露很多之前没有意识的信息,非常有用。现在比较多的应用是对机器日志文件的可视化分析,能发现集群或系统的潜在问题,或是防范外来的攻击。122楼几本可视化一般般。《数据可视化之美》是案例介绍,作为入门读物可以。
    浙大陈为刚出了一本《大数据丛书:数据可视化 》,还在路上,没看到。但陈为的讲座听过,不错。
    可视化的专业工具其实很多,除了R这些自带的功能,还有商业软件Tableau,还有比如说基于HTML 5的D3.js,很流行的开源语言processing等。这个主要还是看自己对哪个更感兴趣,觉得更好上手。

    最后一点,现在很少在大数据里有人提及,但很重要的底层知识,就是关于并行与分布处理。因为大数据分析里,计算力很重要。现在个人都有能力完成开源的集群系统,这是多核。另一个就是GPU通用计算。一本刚出的书《大规模并行处理器编程实战(第2版)》,也值得一看。这个不需要精通,但需要知道自己分析数据时候的瓶颈在哪里。至于Hadoop这种底层的东西,企业级的数据布署与应用,属于基础设施,对数据分析师来说应该是透明的,稍作了解即可。

    以上是个人对大数据入门的浅见。基本上都没有很高深的内容。如果完成以上书目,基本算是入门,而且对如何提高应该有自己的见解,不需要更多的引导了。总之大数据一定是和行业紧密结合。数据除了处理,一定要明白映射到现实的含义。否则很容易只见树林不见森林。
  • E
    Ernest
    真正的进阶书单,从中可以看到Python占很重要的一块:
    斯坦福毕业生Clare Corthell参考了许多新开设的数据科学项目,提出了一个公开的数据科学教学大纲以及相关教学资源:
    http://datasciencemasters.org/#t ... -science-curriculum
    内容涵盖了数学,计算机科学中的算法,数据库,数据挖掘,机器学习,概率图模型,自然语言处理,数据分析及编程等。可以参考一下。
  • b
    bakefish
    mark下!
  • z
    zh0501
    行业数据库,个人数据库

    行业的,很多行业都有不错的,垂直网站 比如房地产:中指院、克而瑞

    个人的,如今社工库很发达。 如果你要是有点关系,公安、银行的系统也是很容易查询的。

    2楼的爬盟不错,可惜数据太单一。
  • e
    eLan
    个人部分:
    静态的:乘客细分,客户偏好,品牌忠诚度
    飞行目的: 因公,因私,旅游,探亲

    动态的:哪些乘客即将开始更多的飞行里程,哪些乘客将会减少飞行次数

    地区部分:
    各地航空吞吐量预测

    航空公司:客户竞争力比较
  • 7
    716lou
    先马克
    数据挖掘
  • J
    Jeanslike
    回复162#lishuanzhu
    mark
  • m
    mar2004
    mark,小样本-大样本-大数据-算法-np问题-歇菜了
  • l
    longwayhome
    内容看看
  • R
    Revive_V
    mark 一个,讨论很有用。
  • s
    shannon_sdu
    收藏了 Q10 开撸~
  • l
    linld97044
    嗯,只能说mark一下,这个行业太难了。
  • l
    linld97044
    感谢分享
  • j
    jqyy
    mark.
  • w
    woiszhu
    我推荐一本小册子,很有意思,叫《数据陷阱》,英文翻译过来的。

    现在大数据的许多忽悠,都能被这本小册子打死,而且是永世不能翻身的那种打死。
  • R
    Revive_V
    回复180#woiszhu


    麻烦给个原版的名字或者链接?是否是《统计陷阱》??
  • 相扑
    文科生表示基本没看懂
  • c
    charles911
  • g
    georgelois18
    mark 当成就业指导般拜读
  • g
    grily
    搞了好几年的BI,不知道自己都在搞什么了,乱七八糟的

    开始学习了,讨论很精彩~
  • n
    newnewtown
    回复122#lishuanzhu


    这书单。。。80%我读大学那会就看过或者有这门课
  • y
    yandongdiy
    敬的客户,恭喜您
  • n
    nokos
    这个要好好学习一下
  • h
    hikech
    LS有谁搞过图片或视频分析的?有啥工具和案例?
  • 洋叶子
    最后我现在在做数据挖掘了,我觉得这是方向,还没有有技术扩散,有很高的门槛。
  • 月球之上
    马克一下,关系型数据库处理慢的应用是不是用hadoop后能快?
  • 猫猫good
    看一下,研究研究
  • r
    radware
    内容mark
  • h
    helio2k
    内容有用Mark。
  • d
    dashuez
    马克下
  • a
    alvise
    mark@@@
  • m
    mayasir
    看不懂,有没有类似于百度指数这样的可视化的方便分析的网站?
  • s
    songyuejs
    mark,好多书。。。