大数据扫盲 _____更新在81#__书单更新在122#__更新一些感受#

  • l
    l32606
    这才是个实在的问题,论证了半天,这也骗钱,那也骗钱。码农连骗钱的伎俩还不会。

    转型数据挖掘有可能吗?
  • l
    l32606
    兄弟能否给科普一下,这是什么行业?
  • l
    lishuanzhu
    回复104#l32606


    HP, 做内部项目的,行业要算得话是Sales&Marketing这块的,主要偏结构化数据分析和挖掘.
  • g
    ggank
    MARK....
  • 魂淡
    回复100#lishuanzhu


    大哥 可以把书单整理一下么 或者推荐下值得读的 感激不尽啊
  • l
    lishuanzhu
    回复107#魂淡


    晚上回去我翻翻,再发上来
  • l
    lobytao20
    前两天有看到一本书叫《大规模分布式存储系统》。在公司天天接触技术部门,倒是有兴趣学一学数据存储,大数据之类的,对互联网和开发有一定经验,但不是开发岗位的人。有没有什么入门级别的好书推荐看看,适合我这种的?
  • c
    chak
    那么,怎么样才冷狗发财呢?
  • l
    lishuanzhu
    回复111#pcer


    高富帅来捧场,荣幸之至啊
  • l
    liberpike
    回复100#lishuanzhu


    牛逼
  • l
    lishuanzhu
    回复113#pcer


    SAP那东西我没碰过啊,哥哥,晚上我列我的书单吧,你看看有什么是你需要的。 我比较清楚我自己要做什么,我就做数据分析和数据挖掘。
  • w
    woiszhu
    其实,几乎大部分的BI,到最后都沦为写ETL代码和开发报表了,最多再加些图形可视化展示。

    相对成功的应用也就是关联分析,最初炒作的啤酒与尿布就是关联分析,
    现在的推荐系统也基本上是关联分析。
    啤酒与尿布,在业内早就成了笑话。

    BI也好,大数据也好,再怎么炒作,如果底层的算法不能达到要求,就只能是吹牛。

    以统计为基础的预测算法,永远不知道什么时候对,什么时候错。只能给你一个大概的可能性。
    也不知道什么情况下有用,什么情况下没用,只能通过实验去试。
    随机启发式搜索算法,容易陷入局部极值。

    要真正做出成功的BI应用,不但需要对业务极其了解,还要对算法底层有相当的了解。
    现在的许多工具,对算法做了封装,许多人只会用算法,并不懂算法的真正原理。
  • l
    lishuanzhu
    回复116#pcer

    第一条线我帮不了你,我本身不接触业务,也对业务不是特别感兴趣。

    第二个我整理整理发出来。
  • l
    lishuanzhu
    回复117#woiszhu


    所以要去学统计,要去看算法,要脱离工具。。。 。。。 现在唯工具论的人太多了... ...
  • w
    woiszhu
    只会用工具的人,很容易就被专业领域的人员所取代了。
    现在各种领域的人员,都已经把计算机作为基本技能,
    他们一旦掌握了这些工具,只会使用BI工具的人,就面临失业的危险。
    聪明的专业人员,使用工具+熟练的业务,其效果完全可以秒杀只会使用BI工具的人员。

    未来会是BI领域专业化,形成新的较细的交叉。
    其实机器学习有一个基本定理,说的就是这个:
    没有免费的午餐定理。
    算法必须和业务背景相结合。
  • n
    nt941
    这么高端的东西D版都有人讨论啊。
  • x
    xcode
    搬个板凳来听课。

    谢谢楼主,楼主好人,楼主一生平安
  • l
    lishuanzhu
    回复116#pcer


    第二条我觉得看方向,如果是想做数据挖掘,我已经列出书单了。
    如果是数据处理,其实也没什么,你们SAP HANA 是第一个要掌握的,其次Hadoop啊,什么各种NoSQL, 原则上JAVA是要捡回来的。 以后的数据平台一定是多元化的,不单单是关系型数据库了.

    Hadoop系列我比较看好Cloudera社区的版本, 看<<Hadoop权威指南>>第三版,前八章滚瓜烂熟之后,可以混个Cloudera的认证回来。
  • k
    kaidokido
    回复1#lishuanzhu
    看不懂。。我用用数据挖掘的一般软件就行了
  • l
    lishuanzhu
    回复107#魂淡


    看122#
  • 薜定谔的猫
    马克一下
  • m
    myliyifei
    楼主是学霸啊,问一下,现在神经网络的发展有什么大的突破吗?
  • l
    lishuanzhu
    回复128#myliyifei

    不是学霸,搞技术的吊死一枚
    木牛听说,如果说有类似的,应该就是最近说的什么深度学习,量子计算什么的
    还有新的什么蛋白质计算,生物计算bla bla bla... ...
  • a
    ayuan
    不错,mark一下,慢慢看iOS fly ~
  • H
    Hisoka-J
    想明年弄弄mongo-hadoop
  • 丰乳肥臀
    回复1#lishuanzhu


    行文看,貌似LZ是HP的
  • 丰乳肥臀
    啤酒加尿布不是 很久很久之前 宣传 数据挖掘用的例子吗? 这和大数据有什么直接关系。。。关系数据库一样 数据挖掘 。。。
  • H
    Hisoka-J
    回复42#pepsin


    是啊是啊,好多傻小子连mongodb是库级锁都不知道就吵吵着要用。
  • 沙发上的土豆
    唉,数学重新捡起来不好捡
  • 丰乳肥臀
    可以得,一个master,几个虚的slave, 我跑起来过。。
  • l
    lishuanzhu
    回复132#丰乳肥臀

    是啊,天天求跑路,出去面试不是说over qualify 就是没有下文了。。。
  • l
    lishuanzhu
    回复136#沙发上的土豆


    哎,是好痛苦。。。 。。。 坚持段时间就好了。。。
  • h
    hong1118
    我厂在挖大数据苦逼.
    帝都北厂-数据部-
  • l
    lishuanzhu
    回复140#hong1118


    帝都算了,从魔都过去太麻烦,薪水上也没有什么吸引力。。。 。。。 吊死薪水太低,无良HR和猎头借机打压,什么不能超过30%涨幅,直接不高兴谈了
  • 丰乳肥臀
    回复138#lishuanzhu


    看你名字我 想起来了。。我们都曾经在2楼,呵呵。。你现在 还是在IT 还是跑去Software了? 另外,你看书挺深入的,学习了。。
  • 沙发上的土豆
    读书的时候学的data mining还有模式识别的知识全都还给老师了,前几天跟老熊聊起HMM,还是毕业论文的题目,现在忘得一干二净;想要开始完全是零起步。
  • l
    lishuanzhu
    回复142#丰乳肥臀


    嚓。。。 还在IT 。。。
  • l
    lishuanzhu
    回复143#沙发上的土豆

    我也是零起步。。。 连干码农都是零起步开始的。。。 。。。
  • h
    heavenfly
    又是一专业学术贴,好好学习一下
  • 沙发上的土豆
    呼叫中心应该算是非结构化数据的data mining的一个应用领域吧,个人所见
  • p
    popes
    期待楼主的讲座~
    最好在上海~哈
  • 沙发上的土豆
    你有什么样的需求才能决定做什么样的数据挖掘吧;嗯,应该是这样
  • b
    beafhorse
    回复111#pcer

    赞同,脱离业务实践,都是屁话。
  • l
    lishuanzhu
    回复147#沙发上的土豆


    没接触过你们那边,非结构化这边就GBS那边比较火热
  • 有病就得电