智能与人工智能/进化/记忆/基因/贝叶斯/化学合成/生物合成/自组装/熵

2006-12-23 01:02

UGlee2006-12-23 01:02
如果这个题目让你犯晕了，请原谅。我尽可能的把这个问题说明白，但是如果说不明白，我也没办法。

首先请允许我先列出三个模型，第一个是智能预测模型，我推荐你阅读D版置顶贴《关于智能的天花乱坠》，这个帖子是对Jeff Hawkins的On Intelligence一书的扼要总结，虽然没有抓住精髓。

J.Hawkins的模型提出了智能的最本质问题：Memory Prediction。简单的说是这样的，一个神经系统会根据输入和记忆，去预测下一个输入是什么，然后去和实际的结果比对，如果预测正确，这个记忆会被加强，如果预测错误，会发出信号，引起注意。大家不妨以这个原则思考一下平时生活中遇到的各种问题，比如你一脚踏入水坑的时候，其实脚底板没有什么Input，但是你会有attraction，因为它和预测的应该的input不一致。

其次来说人工智能模型，人工智能解决问题的出发点是先把状态空间表示出来，比如一个2x2的围棋棋盘，可以用一个(x, x, x, x)序列表示其状态；其中x可以为1（白子），-1（黑子），0（空）。表示了所有的状态之后，状态之间的变化就成了一颗树，从A状态到B状态。初始状态是Root，结束状态是Leaf。如果这个状态很大无法穷举，怎么提高搜索速度、设定合理的优势函数、剪枝以得到尽可能好的Leaf，就是解决问题的目标。

第三我们来说一下Bayesian模型，这是教士Bayes提出的几率公式得到的几率网络。比如你看到一个人头发湿了，然后推断外面下雨的几率。。。这不是必然事件，但是有统计依赖性，对于多因多果的问题，这是目前已知的比较好的解决办法。虽然它不能叫做智能，但是它得到的结果可能优于智能体得到的结果，当然也可能是差于，如果一些几率依赖性很难测量的话，比如敌人的导弹发射方式，如果这个数据对于系统得到的因果关系很重要的话，那无法得到数据就意味着这个模型没有价值。该模型广泛用于股市预测、专家系统等多因多果的复杂应用。

把这三个玩意放在一起是因为这是我目前知道的对付复杂系统的工具箱。也许还有其他的，欢迎有识之士补充。

然后我们来说这个帖子的缘起，就是假死米的关于生物合成和化学合成的讨论。对于简单物质来说，只要物质结构是一样的，两者结果不会有什么不同。但是对于复杂物质来说，情况会变化。

化学合成是满足一定的能量平衡条件达成的一个结构，这是统计性的，是平衡态的，或者说这是符合热力学或统计力学的假设的，不同的地方是它没有了全同粒子假设，异种原子间的作用是要考虑进去的；如果导致了长程有序结构，那还可能把固体物理中的理论拿进来，考虑长程结构导致的物性和相变等问题。如果用人工智能的模型做类比，化学合成可以理解为状态空间的遍历，这是由能量和大数分子热运动保证的。

但是生物合成过程是这样的吗？

我不否认基本的物理化学过程在生物体中仍然起作用。这是理所当然的事情。一个化学过程发生在生物体内还是发生在试管内不会有什么不同。但是我们来看合成途径的时候，就会看到不同。虽然人类的科技空前发达，早已制造出大量的自然界中没有的东西，但是这并不表明人比上帝更高明。比如CPU，它的结构可靠性，恶劣环境下的生存能力都是好过生物体细胞的，但是请注意，在人类的加工过程中大量使用高温技术，把物质结构在高温下改变之后再回到常温把结构“冻结”住，这很聪明，但是没有生物过程是这样的，生物体中的化学过程都是在体温环境下完成的，但是他们仍然得到了很好的精密性，这才是生物过程的厉害的地方。

这种厉害说穿了也很简单，它是自然选择的结果。这个选择与物理化学中的热力学机制不同，它需要有一个记忆机制。也就是开篇提到的记忆预测模型。比如我们知道细胞中的化学过程是由基因控制的，基因就是记忆。为了达到一个功能，化学过程可能很复杂，不同的生物体也可能不尽相同，比如神经突触传导物质，在不同的生物体种就是不同的，但是这不影响最终形成生物电信号传递过一个Synapse。生物体并不是形成之初就能找到最佳的合成途径，但是不管是不是好的途径，都会由基因记下来，如果用人工智能的模型类比，可以考虑为从Root出发了；在漫长的进化过程中，那些不好的记忆，或者说不好的基因，被淘汰了，或者说被上帝遗忘了。这是自然选择的结果。如果你从工业工程质量控制的观点来看，什么样的过程最终会留下呢？就是产率高的，次品率低的方式；当然这和环境会有一定的关系，这种对环境变化的抵制能力也是该化学过程能否被基因录用作为物质合成途径的一个考量因素。所以答案也很简单，能够在生物体中留下的化学合成途径，都是产率极佳的（从不影响组织功能和生命过程的角度讲），如果物质的结构会影响到物性、进而影响到组织功能或者生命过程，那导致大量异构体的化学过程是不能被基因字典收录的，如果收录进去了，这段基因就会被作为坏的基因，致病的基因。当然，基因不是完美的，因为生命过程太复杂了，顾此失彼是常有的，但是在物质结构这个层面上来说，生物体的化学合成途径得到的结果，多数情况下应该远好于一般的工业化学办法。（6个西格玛里面说，有误差的地方就有问题，不知道生物体中有没有这样的质量控制机制，呵呵。）

前面一个帖子我用了“自组装”这个词，不太恰当。在我离开学校的时候，这个词还没有特别严格的定义（我是指纳米结构的自组装）。我这里用这个词的含义其实是这样的：还是用人工智能模型来说，如果说化学合成过程是一个遍历状态或者遍历树的话，那生物进化过程实际上是在生长这棵树，但是很明显这不是一个深度优先算法，而是一个广度优先模式，而且在很早的阶段就剪枝了，最终能够到达结果状态的过程被记录下来，如果有多个，还会竞争比较，当然有些差异不大的就可以并存了。但是可以肯定地是，生物进化不是象物理化学过程那样在所有状态之间掷色子，它是一步一个脚印的沿着状态树走下去的保守主义。我把这个合成途径称为“自组装”。可能有滥用名词的嫌疑了。不过这里面其实是有很大的相似性的，这也和记忆预测模型的另一个假设相吻合，即Hierarchical Model。因为生物合成过程也是很模块化的，是多个模组的组装过程，而不是把原子一个一个粘上去形成最终结构的，不过这里就不深谈了。

然后是熵的问题。在物理和化学过程的层面上，熵增定律都是对的。但是我们的宇宙目前还没有热寂，物质和生物都在象多样化发展，这里面的关键就是要有记忆机制，把一个过程记住，然后复制，因为这个记忆住的东西是能够survive一段时间的，或者说能被记住的都是稳定的。正是这种记忆机制带来了结构和功能的稳定性，并由此使得构造能够survive时间的复杂的系统成为可能，进化也是向着这个复杂性的时间箭头努力的。个人认为，这就是宇宙的熵减机制。

人工智能模型在80-90年代发展得很不错，但是后面就很差了，它没有记忆预测机制是它进化太慢的主要原因。贝叶斯模型是最近几年很时髦的，可以看作是人工智能的接力棒，也是很有用的，但是我个人觉得它也很容易遇到瓶颈的，因为对于没有办法大量measure数据录入系统的case来说，它也是个废物。这不符合智能体的工作方式。

个人觉得这两个模型都不及智能模型更能描述复杂系统的进化机制。Jeff的模型不完全是他提出来的，而且现在很不成熟，数学上差的很多，但是我觉得这是未来一段时间的方向。人类在应对复杂系统问题上没有过任何突破，微软和英国人搞得围棋程序根本连业余无段选手都下不过。而围棋棋手的成长，正是记忆树的构建过程；这个话题最近挺热的，Scientific American多次提到expertise是怎么回事的问题。

最终我觉得还可以趁机反驳一下哲学无用论。这里探讨的问题其实就是哲学高度的，虽然涉及到的学科庞杂，但是殊途同归啊。结构和生物的进化、智能的形成、乃至复杂问题的解决方式，这本来就是一个问题。

科学的魅力就在于此吧。

UGlee, 2006.12.23
weiyangge2006-12-23 01:05
我还以为老大赵丽华附体了
prion2006-12-23 01:43
有的.

比如DNA在复制的时候会有错误, 需要专门的蛋白质来修复
比如蛋白质在折叠的过程中也会有错误, 需要被降解掉
比如细胞老化之后会自动的衰亡(Programmed Cell Death).

人的很多疾病, 特别是跟年龄相关的疾病, 都是质量控制体系出了问题, 或者错误积累太多的缘故
prion2006-12-23 01:51
地球上生命的繁盛是以太阳到地球的热平衡为代价的.
虽然整个系统是熵增的, 但是子系统可以是熵减的, 比如耗散结构(dissipative structure).

生命体就是一个耗散结构.

一定程度上可以说知识,信息就是负熵.
prion2006-12-23 01:58
最近在自学一些Machine Learning的东西, 就我的理解, 任何Machine Learning的模型都要足够的data来训练吧?
UGlee2006-12-23 04:12
1. 并没有证据表明宇宙在整体熵增。
2. 除了信息熵的定义之外，物理化学上熵的概念有很大的模糊性。热力学和化学能研究的都是稳态和准静态，偏离这种状态的时候，除了一个1级近似的久保方程之外都是一筹莫展。在无序问题上也没有什么好办法，对无序度没有好的描述和度量指标。
UGlee2006-12-23 04:18
training和learning还是不同的。仅有memory是不够的，要能形成concept和mental model，能predict和understand，有consciousness。
pjh66882006-12-23 12:21
呵老油条搞高科技的呀
g5182006-12-23 01:38
唉唉唉,念物理的到底是不一样啊
tigerwho2006-12-23 02:18
最近的一篇对于人脑星状细胞的研究似乎指向了一些有意思的结论，智慧更大程度上也许不是取决于神经元的多少。而是那些以前认为无用的神经胶质细胞。我们的大脑并非只有一种传递信息的方式，而是两种。的确，在神经纤维这条轨道上信息传递的速度比在星状细胞上快10W倍，但是似乎对于记忆，学习，适应起更大作用的是那些星状细胞。这对于人工智能的研究将会是一个历史性的转折。
参阅一下Philippe De Wilde的研究也许会对UGLEE有帮助。他是英国（Heriot Watt）大学的教授。他第一次在之前建立的神经元网络中导入了星状细胞的概念，然后发现，这个网络开始Hebb学习后，人工智能的同步协调变得非常完善稳定。
通过上世纪80年代对爱因斯坦的大脑解剖，美国加州大学伯克莱分校的Marian Diamond（著名神经解剖学家）发现，这位大师的神经元数量其实和常人无异，然而，在其大脑中负责高级智慧的区域，神经胶质细胞（星状细胞）所占比例高的令人难以置信。在当时，人们非常困惑，但是没有对这一现象进行研究，不过现在我们大概知道了这意味着什么了。
platinum2006-12-23 02:37
生物化学是化学的一种复杂形式

结构的形成和固定，温度是很暴力的一种手段，其它可以使用的手段还有很多，生命体在温度不能跨度很大的时候，用的就是这些手段，比如吸水和脱水，ph的改变，油相－水相的转换等等。

所谓记忆，实际上就是结构的固定

晶体结晶也是一种自组织，和生物的自组织没什么本质区别。病毒结晶、复制就和氯化钠结晶复制一样漂亮。

实际上没有什么复制，复制就是新结构和旧结构一样。

同一个过程形成的结构必然一样，但不同的过程也可以形成同样的结构，完成复制。就像打印和复印会制造同样的文件页面。

熵的概念是最大可能结构。但是最大可能结构并不一定意味着混乱和无序。

生命体是从无机世界中自发形成的，所有的自发过程都是熵增过程，意味着在生命体形成的那个过程中，生命结构就是最大可能结构。

[本帖最后由 platinum 于 2006-12-23 15:21 编辑]
prion2006-12-23 03:55
有证据表明宇宙不在熵增吗?
对于这种大尺度的系统, 很难觉察到变化, 比如你感觉得到地球自转的变化吗?

任何孤立系统最终趋于平衡, 除非宇宙不是个孤立系统, 如同阿西莫夫在《最后的问题》里面所描述的。

当然如果要是考虑宇宙尺度的膨胀收缩就不好说了，就如同“奇点”所有定律都不适用一样。

其实霍金的《时间简史》对这些问题探讨的已经很深入了:

无序度或熵随着时间增加是一个所谓的时间箭头的例子。时间箭头将过去和将来区别开来，使时间有了方向。至少有三种不同的时间箭头：第一个，是热力学时间箭头，即是在这个时间方向上无序度或熵增加；然后是心理学时间箭头，这就是我们感觉时间流逝的方向，在这个方向上我们可以记忆过去而不是未来；最后，是宇宙学时间箭头，在这个方向上宇宙在膨胀，而不是收缩。

我将在这一章论断，宇宙的无边界条件和弱人择原理一起能解释为何所有的三个箭头指向同一方向。此外，为何必须存在一个定义得很好的时间箭头。我将论证心理学箭头是由热力学箭头所决定，并且这两种箭头必须总是指向相同的方向。如果人们假定宇宙的无边界条件，我们将看到必然会有定义得很好的热力学和宇宙学时间箭头。但对于宇宙的整个历史来说，它们并不总是指向同一方向。然而，我将指出，只有当它们指向一致时，对于能够发问为何无序度在宇宙膨胀的时间方向上增加的智力生命的发展，才有合适的条件。
...
由于我们不知道大脑工作的细节，所以讨论人类的记忆是相当困难的。然而，我们确实知道计算机的记忆器是如何工作的。所以，我将讨论计算机的心理学时间箭头。我认为，假定计算机和人类有相同的箭头是合理的。如果不是这样，人们可能因为拥有一台记住明年价格的计算机而使股票交易所垮台。
...
这样，记忆器就从无序态转变成有序态。然而，为了保证记忆器处于正确的状态，需要使用一定的能量（例如，移动算盘珠或给计算机接通电源）。这能量以热的形式耗散了，从而增加了宇宙的无序度的量。人们可以证明，这个无序度增量总比记忆器本身有序度的增量大。
....
总之，科学定律并不能区分前进和后退的时间方向。然而，至少存在有三个时间箭头将过去和将来区分开来。它们是热力学箭头，这就是无序度增加的时间方向；心理学箭头，即是在这个时间方向上，我们能记住过去而不是将来；还有宇宙学箭头，也即宇宙膨胀而不是收缩的方向。我指出了心理学箭头本质上应和热力学箭头相同。宇宙的无边界假设预言了定义得很好的热力学时间箭头，因为宇宙必须从光滑、有序的状态开始。并且我们看到，热力学箭头和宇宙学箭头的一致，乃是由于智慧生命只能在膨胀相中存在。收缩相是不适合于它的存在的，因为那儿没有强的热力学时间箭头。

人类理解宇宙的进步，是在一个无序度增加的宇宙中建立了一个很小的有序的角落。如果你记住了这本书中的每一个词，你的记忆就记录了大约200万单位的信息——你头脑中的有序度就增加了大约200万单位。然而，当你读这本书时，你至少将以食物为形式的1千卡路里的有序能量，转换成为以对流和汗释放到你周围空气中的热量的形式的无序能量。这就将宇宙的无序度增大了大约20亿亿亿单位，或大约是你头脑中有序度增量——那是如果你记住这本书的每一件事的话——的1干亿亿倍。
_______________________________________________________________

生命的有序是以更大的无序为代价的。
prion2006-12-23 04:04
前提：孤立系统
你注意过天上的云自动地形成平行线吗？
你是学化学的，应该知道贝洛索夫－扎鲍廷斯基(Belousov-Zhabotinsky)化学振荡花纹与化学波吧？

生命的发生是熵减的，但是环境熵增加更多。所以，所有的有序结构都需要“新陈代谢”来保持远离平衡的状态。
prion2006-12-23 04:08
...人工智能，数学底子太差，还考虑不了这么多。
只能training 然后做prediction
ghfl2006-12-23 04:48
物理差,英语差,搞不懂这么多model
platinum2006-12-23 06:11
生命在活动的时候，是什么样一种过程可以使得生命体本身熵减，把减掉的这些熵排放到环境中去呢？

如果我们把生命和它周边的小环境看成一个孤立系统，是什么机制使得这个系统的一部分熵增，另一部分墒减？
石坚2006-12-23 07:18
够厉害的，生物万岁
UGlee2006-12-24 12:32
我不能同意这种看问题的方式，这样的方式处理不了复杂问题，也解释不了进化的方向。

记忆的物质基础是物理和化学的结构。但是记忆的内容不是结构或者状态，而是过程。要记住过程才能survive时间，才能不被随机事件淹没，回归混乱。记忆是要产生action，对输入产生反应，产生一系列的高度可靠的化学反应。如果仅仅看化学过程，那只是去放大生物化学过程的一个片段，犹如对飞行物体的一张照片，看到的是这个物体的位置，而不是它的运动。生物化学就像一个巨大的、生产复杂产品的工厂，记忆是它的生产工艺和流程，要考虑的问题是整个生产线的资源相互制约，产率，设备的状态，工艺的可靠性，标准件的通用性等等。这既不是研究基础的物理化学过程，也不是研究几率基础上的热力学系统。
tigerwho2006-12-24 12:59
是钙波的传递
UGlee2006-12-24 01:00
霍金对于时间的宇宙学解释是很权威的，也是普遍公认的；对于热力学的解释，也没超越热力学第二定律多少，而且热力学本身未知的问题也是一大堆，不如其他几个物理学分支完备；对于心理学的解释，都是猜想了，是哲学层面的；个人认为他的说法并不能让人信服，也缺乏detail，缺乏实验方法和实验结果的支持。

用计算机去类比记忆是错误的；计算机是从数学来的，而不是进化来的。内存分成两部分，一部分记录的都是状态，这是运行时可变的部分；另一部分记录的是代码，这比较符合我前面说的对记忆的定义，可惜这不是运行时能变化的，而且都是人建立出来的。所以计算机根本不会进化。倒是软件工程有很多进化的思想在里面。

人脑也不是那么深不可测。hebb的fire-wire理论是被广泛支持的，也是绝大多数神经网络模型的基础。也有大量的实验证据支持记忆就是synapse的形成。神经本身也是一个简单的模拟量加法器，把从dendrite来的信号累积起来，决定是否通过axon发出信号。和人类制造的计算机不同，大脑是一个可变化的、随机的、高度互联的网络。它不能寻址，互相连接的神经细胞之间也没有“字典”，以使得不同的神经信号代表不同的含义。但是它可以通过改变连接性，细胞和细胞之间的synapse就像一个开关，决定了信号在这个复杂的网络中是如何路由的。大脑就是通过这种连接性的变化来实现“计算”的。
wooda2006-12-24 01:04
强悍之贴，抄下来慢慢研究。。。。
功夫小狗2006-12-24 09:12
等待于谯胖过来发飙~~~

唯恐世界不乱滴人飘过....
Nick2006-12-24 09:33
好像你们说的不是一个东西吧。。。比较起来也有点乱
355毫升2006-12-24 09:48
疯子...-_-|||....
platinum2006-12-24 02:20
修订一下这句话，忽然发现有疏漏的地方

某些系统同一个过程形成的结构是严格一致的，某些系统就不一定，不过这些结构至少看上去都很像，会具有很多的共同特征。
platinum2006-12-24 02:22
记忆的是规则

如何构建过程的规则
石坚2006-12-24 05:03
我不明白,生物生命是如何存在的
....
youbin2006-12-24 05:52
楼主,明年瑞典见.
UGlee2006-12-27 04:28
今天写程序的时候突然想到的一些想法。

不知道学化学的人是不是都象大鸟一样是结构论者。结构决定物性，这也是材料物理中的一句至理名言。在人工智能领域中，有一个流派就是强调神经的连接性决定智能的说法，被称为connectionist。类比一下的话，结构论者是不是可以叫做structurist。

但是结构仍然只是一个状态描述，不是过程描述。举两个例子:

第一个例子是围棋。任何一个时刻，棋盘的状态都可以看作是一个结构。如果假定下棋者的心情因素和逻辑失误不在考虑的范畴之内，或者把下棋者当作电脑式的确定论者，那么向后推演是可以的、确定的，但是逆推棋局的形成过程将是非常困难的，除了穷举，几乎没有严密的办法。这里就有了一个时间箭头。

第二个例子是软件开发。在这方面，理论性强的多。软件开发有明确的数据结构和算法概念，两者并不是一回事，如果类比的话，数据结构可以对应结构，而算法对应了过程。一些算法是可逆的，但是也有大量的是不可逆的，譬如散列加密的MD5，或者DES/AES等等。也是除了穷举没有别的办法的 - 虽然没有严格的数学证明；简单的情况可以这样理解，你现在在使用的Windows，如果要开发一个和它的行为完全一致的系统是可能的，但是要通过黑盒测试推倒出它的真实源码则是不可能的。而且更加有趣的地方是，在计算机中，算法是可以代码化的，程序分为代码段和数据段，但是在存储上，代码和数据并没有什么分别，正如基因记录并指导了生物的化学过程，但是基因本身也是物质一样。

个人认为，对于这样的系统（这是在自然界中普遍存在的，也是导致复杂性的关键因素吧），熵的概念是很无力的。统计力学的假定过于简单，不同状态之间只有能量壁垒，而能量是几率性的。但是上述两个例子明显是复杂路径的，其进化结果完全不是几率过程。虽然关于热力学的时间箭头有大量的探讨，但是我不觉得有令人信服的说法，即使说话的人是霍金。在进化问题上，仅仅考虑结构是远远不够的，必须把过程考虑进去，而且过程也有进化，象遗传算法就是一个好例子。软件工程中使用的各种技术的不断进化（比如OO的面向对象设计）其实也蛮象自然界的过程进化的。事实上这些方面的研究还处于很萌芽的状态，传统的、被认为发展到相当高度的物理和化学学科中能对付这类系统的手段很少，我知道的，只有在一些临界的情况下有较简单的模型，比如渗流模型、重整化模型等等。
prion2006-12-27 05:37
要是结构决定一切我们都当一坨受精卵得了
prion2006-12-27 05:40
恩 “新陈代谢”是耗散结构的必要不充分条件
什么是充分条件我也不清楚

感觉是系统必须达到一个“复杂度”的cutoff，产生一个跃迁。
prion2006-12-27 05:46
不可逆是因为有些信息被抹去了还是熵增
platinum2006-12-27 11:23
结构中蕴含了可能性

结构决定了系统下一步可以做哪些事情

当然在这个层面上还无法理解为什么有时间箭头

更深入一个层次

没有静止的结构。所有的状态都是系统在某一个时间点的切片。所谓平衡态只是这个切片存在的时间点比较长，有些甚至长到我们以为它是永久的。

如果把世界看成一个无处不动，时刻运动的系统，那么随机性就会产生时间箭头

对于随机性的认识，又有伪随机和真随机的两种看法

复杂系统本质性的混沌的发现，也许会导致随机性被确认下来
yandongdiy2012-09-11 12:47
终于找到了这篇精华文章，好好读读
yandongdiy2012-09-11 02:07
大家讨论讨论，特别是贝叶斯
猫了个咪的2012-09-11 02:44
虽是好闻，但也太老了。那时u大毕业了么
yandongdiy2012-09-11 09:39
应该毕业了，那是应该在palm工作
yandongdiy2012-09-12 02:36
太冷了，大家都在关注2k哥？
songco2012-09-24 11:00
这么大的标题， mark一下，这才像电工坛子。
yandongdiy2013-11-15 04:42
太强大了，每一次看都有收获
ngok2017-06-27 09:15
最近在思考熵增的问题，把这个帖子翻出来了。
U大在06年就已经站在AI的前端了，伟大的油哥李！
他的智能预测模型理论奠定了大预言术的基础。
我越来越相信油哥李在此后的所有预言都是由他的AI做出的。
Restart2017-06-27 09:45
大师，您研究这个我看靠谱，炸药奖等着您。 iOS fly ~
yueguang88662020-02-01 02:53
我觉得梨叔可以在14年之后把这个帖子再度更新一下了