大数据扫盲 _____更新在81#__书单更新在122#__更新一些感受#

  • h
    hhenheng
    很认可你说的观点,最近也在试图从社会学方面切入研究一下, 可否推荐相关读物?
  • s
    songco
    大部分人在炒作, 部分人利用这些赚钱....
  • m
    mirra0000
    回复36#创业园


    连这种简单的术语都看不懂你还进来干嘛?不会google一下?主观能动性这么差?笑话啊
  • s
    stonezuohui
    最后剩下一群电工在发帖子研究
  • x
    xiaotianhu
    我就问一下,现在的码农
    转向数据挖掘,是不是更有前途一点?

    给个入门教程?
  • E
    Ernest
    社会学方面其实有两个切入口。
    一个是现在比较流行的复杂社会网络,它是将复杂网络,跟社会网络两个揉在一起。数学基础是图论,经济学工具是博弈论。研究简单规则在交互中如何涌现复杂现象。科普级读物是Melanie Mitchell《复杂》(强烈推荐),还有就是巴拉巴西 (Albert-László Barabási)的《链接网络新科学》。本科级教科书有David Esley和Jon Kleinberg的《网络、群体与市场:揭示高度互联世界的行为原理与效应机制》,再上去的书就很多了。大数据的高维度相关性不是数据级的,是现象级的,也就是说,它不是某几项参数之间的关联,而是某些对象之间的关联与互动,而表征就是关系,也就是复杂网络。
    另一个是在经济与金融方面,有所谓计算实验经济学与计算实验金融学。传统的研究方法里,无论是抽样还是统计,都是假设同构的对象,比如理性人,比如同样回报率或波动率的证券。但计算实验经济/金融关注的是异构对象。也就是说样本空间的每一个样本,都是相互发生关系而不是完全同质同类和独立的。因此整个系统的反馈就复杂而微妙,非常有意思。而它们之间关系的网络拓扑属性,网络随时间演变的网络动力学,都是研究的重点。网络本天津大学的张维有一本《计算实验金融研究》,我还没看。推荐一个研究级的英文网站,介绍地非常详细:http://www2.econ.iastate.edu/tesfatsi/abmread.htm

    总之,大数据不等于数据大,高维度不是维度的堆砌。电工思维很容易陷在定势里出不来,看不到技术的本质和真正的趋势。
  • h
    hhenheng
    受益良多多谢指教,关于电工思维,其实很早就有人告诉电工们了,“没有银弹”,但是这么多年来电工们的可爱之处就是还是不信这个“邪”
  • s
    slzhang
    涨姿势了。
  • y
    yzhkpli
    想学R。卤煮给扫盲下。可以付费。几块猪肉没问题。
  • p
    pingjie
    做了几年生物大数据的表示你们这些数据和测序数据相比都只是呵呵
  • s
    sirotaku
    说来说去就是市场还未成熟,好事儿啊
  • w
    woiszhu
    总算有人提到时间问题。
    在NP问题解决以前,
    大数据就是个屁。

    大部分有用的问题是NP问题,
    NP问题不是没有解,
    而是一个不大规模的问题,
    计算机都要算上万万年。
    这就是事实上的不可解。

    目前的主要处理方法是穷举+随机+近似求解+启发式算法。
    由于“近似”,才会有所谓的准确率。
    目前的所谓挖掘算法,
    “挖”出的基本上不是解,
    只是想当然地认为这个“近似”解是“最好”的。
  • w
    woiszhu
    本来数据是无穷的,
    “大数据”的“大”,
    只是你能得到的而已。

    写大数据书的人,
    根本不知道测量与数据采集为何物。
    以为数据就是缸中之米,
    可笑啊可笑。
  • i
    iamxiaop
    涨姿势了。。一直觉得大数据应该不是纯电工的玩意,但是又想不明白,原来是这样的~豁然开朗的感觉。
  • h
    hujianetants
    这个帖子必须mark一下
  • w
    wangweirun
    59楼推荐的不错~~~
  • l
    liberpike
    这个要赞
  • l
    lishuanzhu
    回复65#woiszhu


    你说的那些是问题的一方面。但更多的不在这里,是用算法没有办法准确的去做预测,分类等等,大部分算法都是基于概率的,那么基于概率的总有对未来数据分析匹配的准确性问题存在。尤其是大部分,数据不能非常精确或者全面的描述现实,总有些不能量化的指标存在,那么只能用这种方式来相对的解决一部分问题。
    比如我们现在在做的灰色市场检测,渠道是不可能告诉或者全面提供我们他们的数据的,那我们只能根据现有的数据来进行可能性评估,来作出一个基于概率的从大到小的列表,以供业务人员进行检查,从某种意义上已经大大的提高了他们的工作效率,这就是有意义。不然以前只能一个一个人肉的漫无目的进行检查,效率过于低下。
  • l
    lishuanzhu
    回复59#Ernest


    这位大神推荐的相当给力。 谢谢。 不过对于非结构化数据的处理是另外一个故事了,我相信在大部分公司是没有这样的需求的。 互联网我不是特别熟悉。但是我们对于非结构化数据处理,主要是用类似于搜索引擎的技术来做的。比如基于文档网页的知识搜索,聚集等等。
    我没有说Hadoop, 或者NoSQL没有用,只是在大数据本质不在于这些技术,在于利用和进行数据分析挖掘来支持业务。 Hadoop或者NoSQL我后面把我的理解发出来大家一起探讨下.
  • s
    sonybp
    mark一下。
  • l
    lishuanzhu
    回复62#yzhkpli


    R本身没有什么难学的,比JAVA容易。
    难的是R提供那些的各种算法,本质上还是统计学,数据挖掘。

    所以学好R, 要先学好统计和数据挖掘。
  • l
    lishuanzhu
    回复58#xiaotianhu


    我个人是这么认为的, 我也在向这个方向转。 统计学,时间序列分析,参数非参统计等等,数据挖掘。。。 不过过于庞杂,信息论的知识也是需要的。
    没有什么捷径,大量看书做题,读论文,长期坚持。
  • k
    kkkm
    明年要做这么一个东西,哥从来没玩过这么高端的玩意,正在努力用各种形而上理论武装自己,顺便提升下忽悠能力,感谢各位推荐。
  • a
    archon
    等待板砖。。在来学习。
  • w
    woiszhu
    我说的正是算法问题,不过是最底层的算法机理,
    是算法为什么没有办法去准确做预测的原因。
  • S
    SevenYearItch
    举例,有一个五年的中国飞机航班抵离空港,时间,乘客(性别,机票价格,年龄)等等的完整数据库。
    你们觉得能挖掘出什么东西,规律出来?
  • l
    lishuanzhu
    关系型数据库由来已久的严格schema定义,不能灵活的和内存中的数据结构相匹配起来,发生各种很复杂的转换或者干脆不能处理的问题,很早之前就有了。这种现象称之为"阻抗失谐"

    于是第一个解决方案出来了,对象数据库,但是其低下的性能,以及各种中间件技术的出现,比如Hibernate/iBATIS就出现了去部分的解决了这些问题,对象数据库昙花一现。

    Hadoop不是一个新的概念,大家如果研究过搜索引擎的话,这玩艺就是google试出来的比较适合去处理爬虫处理过的网址问题而出现的,顺便的还有一个算法Bloom Filter, 后来再发展了一系列的应用。Hadoop本质上是一个聚合计算框架,不是所有的计算场景都适合的,当然所谓的YARN框架野心更大,解耦和资源管理和MapReduce之后,以后可以加入Giraph, HAMA, OpenAPI各种计算框架,那么前途无可限量。但本质上用户用数据还得放到一个适合查询的平台上,数据库?

    相信大家听说过CAP理论,尤其是近年来各种新概念的提出,面向各种主题应用的数据处理技术,NoSQL就出现了,当然硕果仅存的数据库大牛Michael Stonebraker不这么想,其认为Hadoop的出现是一种倒退,神话般的存在人去玩New SQL了,本质上New SQL是扩张数据库到集群,不在把数据库当通用型的,改称面向主题应用的,比如去约束来提高速度等等等等。

    那么现在的NoSQL数据库有哪些呢?
    这里不说事务或者一致性一类的更详细的信息了,有兴趣可以找本小册子<<NoSQL Distilled : A Brief Guide to the Emerging World of Polyglot Persistence>>来扫盲。

    1。键值数据库.
    适用场景:基于会话信息的信息聚合应用,用户配置信息的,购物车数据等等,可以根据一个key把这个相关的信息都拖到一起的应用。
    不适合数据间关系,多项事务, 查询数据,操作关键字集合。

    2. 文档数据库 MongoDB
    适用:事件记录,比如购物事件把用户信息什么的本质上用JSON的方式数据放在一起. 内容管理,博客,网站分析与实时分析,电子商务应用。

    不适合:包含多项操作的复杂事务,查询持续变化(文档数据库只实现了最终一致性)

    3. 列族数据库 Cassandra
    适合: 事件记录,内容管理,博客,计数器,带有限时应用的场景(expiring column)

    不适合: 事务到ACID的, 原形设计。Cassandra数据schema修改成本很低,但是在查询schema的修改成本很高,原形开发的时候查询schema是很难确定下来的。


    4. 图数据库 Neo4J
    适用于:互连数据,路线分析等运筹上的,位置上的,推荐系统,社交分析等等

    不适用: 数据属性变化较多并且要反应及时的应用。。。 更新图的属性过于复杂,成本过高



    总之,每种技术都有很鲜明的特点和很有特色的应用场景,不一定关系型数据库不好,也不一定Hadoop或者NoSQL不好,要具体问题具体分析。

    但是大数据言必称Hadoop什么的,我不认同。
  • l
    lishuanzhu
    回复79#woiszhu


    是没有办法,总有无法量化的数据和数据没有办法准确的描述现实,问题有时候不在算法
    还有数据质量的问题
  • l
    lishuanzhu
    回复80#SevenYearItch


    比如机票价格预测,什么时候有多大的概率会择扣高。。。比如找出最有价值的客户,对客户进行分类,RFM模型
  • w
    woiszhu
    问题就在算法。
    数据不是缸中之米,
    目前的算法基础研究,
    基本上用的是缸中之米(所谓标准数据集)。
    所以,许多所谓“研究”,
    就象是研究如何用肉做出一道红烧鱼来。
    看似很可笑,实际上的论文,都是这样的。

    数据也没天生就是量化的,
    而是你想办法,才量化出来的。
    给你的是肉,你要做红烧鱼,就应该想办法弄鱼,然后再做红烧鱼。

    其实算法,可以归结到NP问题,而这,其实是一个哲学问题。
    这个哲学问题,又没有搞清楚。
  • l
    lishuanzhu
    回复84#woiszhu


    听不懂了。。。 。。。 吊死就是一半路出家的程序员,原来学管理的。。。 你都上升到哲学了。。。原谅我在这个领域的基础实在是比不了科班出身并且长期坚持学习的人
  • s
    savesaveme
    数据时代mark
  • w
    woiszhu
    其实,你随便搜索一下,就知道NP问题了。
    21世纪七大数学难题之一,因为其具有重要的实际意义,所以许多机构都悬赏。

    目前解决了一个,彭加莱猜想。
    可惜中国人很丢人,抄袭俄罗斯人放在网上的论文去发表。
    最后,认定成果属于俄罗斯人。
  • 花卷
    前几天才和人讲了hp的大数据方案。。
  • w
    w111w111w111
    小板凳,背着手。

    谢谢!学习呀。
  • 魂淡
    回复47#headin


    知呼好像是MongoDB
  • 费小弟
    统计毕业的如听天书
  • l
    lishuanzhu
    回复88#花卷


    HAVEn... ... 嚓,那玩意就是我们做的。。。。。。
  • l
    lishuanzhu
    回复87#woiszhu

    Mark一下,有空去瞅瞅
  • l
    lishuanzhu
    dalian.JPG


    被打脸了,pia pia pia
  • c
    crisist
    mark以下
  • l
    lishuanzhu
    回复43#eLan

    大数据最早的提法不是社会科学领域吧,是天文学领域的。。。 。。。
  • 花卷
    回复92#lishuanzhu我偏autonomy那块
  • l
    lishuanzhu
    回复97#花卷


    坚决不碰autonomy了,那玩意太黑盒了,还动不动给弄到印度去。
  • 花卷
    回复98#lishuanzhu哈哈~~~
  • 外婆桥
    我也上过大数据的课呢 沈浩老师讲的,别的不感兴趣 双色球那 不错
  • k
    kurt_yan
    赞同

    其实hadoop只是map reduce pattern的实现,工具而已
    noSql不过也是个基于k-v的存储工具
    云计算(iaas层)更是一个用来支撑分布式计算的工具
    这些工具一旦部署成功了,交给猴子管理也不会有太大问题

    技术/工具从来都是为了业务服务的

    抛开业务聊工具 都是耍流氓啊