大数据扫盲 _____更新在81#__书单更新在122#__更新一些感受#

  • l
    lishuanzhu
    回复2#lookhi

    找过了,有些还不错,有些算法想用,找能用的数据就不太好找了
  • o
    ooodie
    对我好像有扫盲作用,谢谢。
  • 创业园
    楼主这只能算是篇不全面的数据挖掘推介文吧。
  • w
    woiszhu
    大数据就是个笑话,特别是在解决NP问题之前。

    小样本都力不从心的统计学理论,怎么去处理大数据?

    大数据怎么保持一致性?
    太多的问题了。。。。。

    这么多年,计算智能基本上没有丝毫拿得出手的进展;
    新概念倒是炒作出了许多。
    其实,就是个屁。
  • k
    kaidokido
    回复1#lishuanzhu


    。。。好久没看到你了。。都不理我。。。我总结一下:卖数据,卖数据分析的结果。。。大数据是糊弄人的技术概念。。。。
  • B
    Beekay
  • k
    kkstar
    继续mark
  • L
    Laputa
    撸主错别字很多,打回。
  • n
    nostoryboy
    卖数据分析结果是不错的买卖,因为没法验证结果的正确性,除非再去找一个大数据分析结果比对
  • 多聋
    不懂大数据,但是现在都在吹这个,上次去某知名通信设备厂商面试最后一轮面试官问我对大数据有什么看法,我说听过一些概念没具体接触过,隧被鄙视了。从此我觉得不去该公司没什么遗憾了。
  • f
    frente!
    那天看到某人谈大数据,还是用啤酒加尿布的例子,实在是笑死个人。。
    数据源扩大了,数据分析的能力不见得有多少本质提高,数据处理就是把集中式的DW/BI换成分布式的hadoop之流,也是换汤不换药。。
    也许18摸那套所谓的认知计算才是未来的明灯吧,不过除了Watson那次,谁也没见过实际应用
  • 老兵-猫族
    举例啤酒和尿片不是那么可笑吧?大数据本身也就是扩大化的数据挖掘
  • t
    tuzky
    我提出一个意见。
    如果关系型数据库提供足够多的扩展字段并且有强力的云计算能力支撑,在不考虑软硬件成本的基础上是不是就比非关系型更有查询效率呢?
  • r
    rebbie
    喷了, 大数据、云、少年愁、懵懂性,一样一样的。
  • l
    lishuanzhu
    回复16#tuzky


    是这样的,在某些情况下,非互联网企业,数据不到PB的,关系型数据库足以胜任。
    只不过,热炒的大数据,其实把数据挖掘提到台面上来了,我觉得应该这次会是一次数据挖掘比较好的普及的机会
  • l
    lishuanzhu
    回复8#kaidokido


    贱货,年前没空,年后我联系你
  • r
    rebbie
    呃,关系数据库当然是有关系才有数据库。

    不过窃以为,大数据的最大的问题就是根据数据找出关系,在没有分析意识或数据汇聚之前,你是不知道上海老头最喜欢上网买东西的....
  • l
    lishuanzhu
    回复6#创业园


    我就是在推介数据挖掘,顺便鄙视一下大数据言必称Hadoop的
  • l
    lishuanzhu
    回复21#rebbie


    人说的是数据处理能力,你回的是数据怎么利用的问题。。。 。。。
    当然你说的没有什么问题,个人认为大数据的本质是怎么用数据...
  • 最后一秒
    能通俗一点吗 亲
  • r
    rebbie
    呃,我错了。要是追究处理能力的话,应该其实都是一样的。 只是功力深浅的问题。 开发的功力、部署的功力、还有优化的功力

    关系数据库也可以全部都搬到内存里来,非关系数据库也可以分布式存储....
  • l
    lishuanzhu
    回复25#rebbie


    不能同意更多,不然淘宝的OceanBase怎么支撑业务的。。。当然有更时髦的名词,叫New SQL
    截个图给你们看,就知道数据处理领域多么百花争鸣了


    DB.JPG
  • l
    lishuanzhu
    回复11#Laputa


    原谅我吧,亲,从小到大语文很少及格的人能码这么长文字很不容易了
  • l
    lishuanzhu
    回复24#最后一秒


    大数据就是数据挖掘, 什么Hadoop, NoSQL等等等等,就是骗钱...
  • l
    lishuanzhu
    回复7#woiszhu


    不能同意更多,但现状是已有的能用的都用不好。。。 或者根本没什么人在用。。。甚至偏离了方向。。。大数据就被炒作成Hadoop, NoSql, 云计算什么的了
    其他都是新瓶装旧酒
    其次数据挖掘里面,对于数据本身的检查还有处理基本上花80%的时间在这上面,一致性过差,巧妇也难为无米之炊啊
  • d
    dudulangjiao
    大数据也就是数据挖掘吧,数据找马云要啊。。
  • 下雪一日菊花残
    内容怒马
  • w
    wane
    学习了,
  • 金来换
    mark慢慢看
  • 史地文
    楼主讲的还是很有道理的。

    所谓的No SQL, K-V store只不过是在RDBMS不太好扩展到分布式集群的时候,搞出来的一个hot fix. 本质上说,这个世界是复杂的,k-v这种简单的数据模型是有问题的, 比关系数据模型要更落后,更别提早期k-v store eventual consistency这种搞笑的consistency guarantee. 你看现在k-v store也开始支持更强的consistency guarantee.

    MPP RDBMS其实主要问题是太贵了, 然后Fault Tolerence上面不如Hadoop。
  • 创业园
    如果是推介请讲国语,别整这些术语的缩写简写好不,用一大堆术语自称推介,叫装逼你造吗
  • s
    storespace0930
    数据源和挖掘的确是有价值的。工具总会被码农白菜化。学习了,谢谢
  • E
    Ernest
    楼主先把大数据降格到数据挖掘,然后站在关系式数据库角度对结构化数据各种要求一通喷。你怎么不说大数据主要针对大规模非结构化数据,文本、语音,图像,视频。
    大数据 = 数据大 ?
    喷了。
  • z
    zhoulala
    现在公司过来吹反正提大数据就是说3个V,18摸得说法,大量化(Volume)、多样化(Variety)和快速化(Velocity)。
    其实定义不定义真无所谓,应用场景还是老生常谈,就是从海量数据中发现知识
    我的理解,所谓海量数据,是结构化数据也好,非结构化数据也好,量够大就可以叫大数据,关键还是要现什么知识,怎么发现。
    从金融业来看,啥非结构化数据都无所谓,相比互联网,金融业有大量的基础结构化数据,而且数据质量相对较好,能把这些东西挖掘好就已经无敌,关键在于自己想清楚挖什么、怎么挖,后面究竟是rdbms还是hadoop还是nosql都无所谓
  • j
    jerryao
    深度学习
  • 小醉侠
    内容难懂
  • p
    pepsin
    回复38#Ernest


    楼主说的其实没有错。所谓什么大数据,就是一个足够大的样本去推演关系,跟传统的分析其实差不多,只是维度可能是加了很多不相关的来拓展思路。你说的什么图像,音频,到最后也是要落到转化为文本的形式去分析。

    况且,业内真少听说过拿一堆音频,视频去并行分析数据的。我们公司有做,但是靠间隔截屏获取关键帧来分析。

    另外帮楼主猛喷一下Hadoop党,一天产生数据量小于1T的公司都纷纷Hadoop了,都惊了。还有一些小傻子业务需求都没搞明白就猛上MongoDB这些,事后发现还是关系型方便,可惜来不及了。
  • e
    eLan
    都是电工谈大数据。

    其实社会学家从上世纪70年代开始就有大数据的概念了,只不过那时没有那么多数据采集手段。要说大数据领域,我觉得还得社会学家牵头,根据对社会的洞察力部署数据采集方案和分析方案,工程师搞实现。
  • s
    sunny.yg
    搬个小板凳听听。不要收我门票哦。
  • y
    yhawk
    内容我擦,那么多计算模型,图计算,流计算都忽略了。言必称Hadoop是没大问题的。给个关键词YARN,研究一下大数据的操作系统吧。
    MPP都在迈向死亡的路子上。NoSQL就不是用来解决OLAP问题的,而是解决大规模并发存储访问的OLTP问题。你显然被误导了。
    再给个关键词,阿里嘉年华,看看国内的阿里系之流玩到神马程度了。
  • z
    zcbzero
    就现在的大数据来看,除了量大,还对时间有需求。。
    R也好,SAS也好,都是将数据载出后进行挖掘分析。。在挖掘分析期间形成自己需要的模型
    但最终还是要将模型放到线上进行实时处理。。
  • h
    headin
    十天1T的该不该上 Hadoop 呢?


    知乎这样的数据量该用什么方案?
  • s
    smarttom
    技术贴留名
  • b
    bbc100
    这公司不错,提供真正的ETL工具,可视化结果。
  • u
    utopia0
    各种挖掘算法学起来有点吃力啊~
  • m
    mirra0000
    尼玛 认真点行不行 这么多错别字 看起来真吃力
  • t
    ticat
    技术贴马克