这是我在学习Deep Learning留下的疑问与见解
献给那些即将学习深度学习的同学们,也献给哪些提供我知识的先知者们
近年来,深度学习成为程序员热捧的话题。NLP,CV层面的应用越来越广泛。但是,似乎又没达到人类期望的目标,这又是为什么呢?带着疑问,我们先来看看我们大脑的数据!
细胞每天要死亡约10万个(越不用脑,脑细胞死亡越多)。人脑中的主要成分是血液,血液占到80%,大脑虽只占人体体重的2%,但耗氧量达全身耗氧量的25%,血流量占心脏输出血量的15%,一天内流经脑的血液为2000升。脑消耗的能量若用电功率表示大约相当于25瓦。参考文档
人脑中860亿个神经元所存储的数据量=86000000000÷13*1TB≈66亿TB。
66亿TB,这是什么概念?我们来做个换算,目前市面上能见到的大容量SSD有8TB左右,大脑数据容量就相当于8.25亿块8TB SSD!
假设按SSD当前大约1元1GB做价值换算的话,那么我们的大脑的价值高达660000000010241≈6758400000000元!这大概是我们这辈子最富有的时刻。参考文档
看了这些知道自己富有了吧。
脑科学研究者还在对这个进行深度探索。脑中的记忆与思维的产生和这个器官有深刻的联系。
具体有两个作用:
1.一般记忆作用。
2.方向定位作用(据伦敦大学院的研究表名,相较于一般民众,伦敦出租车司机的海马体体积较大,至于更有经验的出租车司机的海马体体积又更大。)
信息输入始于单一模块或多模块的联合区
人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。
参考文档
ASIMOV Institute绘制当前所流行的27张神经网络节点图,方便查阅和收藏,如下:
参考文档
我学习的时候,更多的是抽象思维去想象,对于数学没有过于深入的探究。
但数学是一门艺术,世界上有90%多的问题能用数学去解决,(而现在的计算机能解决的据说大概在30%,并且是建立在数学上的。)。所以学会一点数学,对生活有很大的帮助!!!
参考文档:10分钟,用初中数学知识看懂深度学习!
其实大脑内存储的记忆也是一种数据体现的形式。
先说下逻辑结构:反映数据元素之间的逻辑关系,也就是数据元素之间的前后关系。
现有的逻辑结构包括:
1.集合;2.线性结构;3.树形结构;4.图形结构
读者如果想深入了解,希望你们对以上地内容多看看
以下陈述的观点只是个人观点推论
用深度学习做过图片识别的人员都知道,深度学习的过程中会涉及到各种各样的函数。通过对超参数的优化,来获取目标权重与偏置。那么,在我们幼儿时候,认字识图的过程中,我们的幼时记忆对函数是一无所知的,是从来没有接触到的。(除非投胎没喝孟婆汤??是神童!!!)那么是人类是以什么样的机制进行学习的呢!!是通过什么方式来进行未知事物的认知呢?带着这样的疑问,让我们进入知识的海洋。
复习下高中的生物,细胞地不同种类地诞生是由(DNA)地选择性表达,大脑内部地神经网络结构是通过长时间地进化而形成的。神经元之间的信息传递有两种方式:一种是通过电信号传递,一种是通过化学物质传递----神经递质。后一种信息的传递方式更为常见。
一切总有源头吧,那么信号是怎么产生的,根据能量守恒定理。任何细胞在成长的时候,肯定是需要营养的吧。神经细胞在发育的过程中,会大量吞食营养中的脂肪如(DHA)。那么在消化这些化学成分的时候,会发生一些反应,自然而然地产生一些能量,也会产生新地物质,促使周边环境发生新地变化。这些能量也许就是电能,新的物质可能就是传递需要地信使—神经递质。
脑内地神经递质大概分为四类:即生物原胺类、氨基酸类、肽类、其它类。参考资料
来看一下神经元细胞的结构:
神经元的分类:
现有的很多深度学习神经网络模型都是模仿神经元产生的,那么对比上面的27种神经网络。神经元的优势:用现在的数学模型来讲,它拥有巨大交叉熵这个属性。细胞体上的树突如同根须蔓延在大脑之中,你可能会问?这好像没多大的关系,我来声明一下:人类大脑包含上千亿个不同的神经元,一个神经元的树突大概有一千多个,而每一个神经元能形成上万个特异性的突触连接。那意味着什么?(变态啊),这个意味着神经元对信号处理的深度要远远的高于人工神经网络。再看看这知乎上的回答 既然神经元的结构非常简单,那么为什么不制造几百亿个模拟神经元来模拟人脑? - 万物的血统书的回答 - 知乎
那么人工神经网络呢?大多数是通过增加层数来提升更高的预测率。但是每层的细胞神经元呢?那么它产生数据的节点数能有多少?一个人的大脑神经连接量要远远比如今的互联网要复杂很多的。当我们的部分神经元的连接所产生的作用,就能覆盖上述所有深度学习网络的所有功能。所以我觉得,深度学习作为一种技术只是起点,一个好的起点,那么未来的脑科研者与数学家们的努力,还会出现更加高明的技术。好了(感谢读者能继续看下去)。人脑复杂的神经系统给人类的学习带来了极大的便利性和巨大的潜力,所以好好珍惜,要自信。
让我们回到童年。不知现在的你是否还记得3岁之前的记忆?小编相信大多数人是记不得的,因为那个时候的我们的大脑还在处于发育状态!那么是不是发育吃掉了记忆?(No,No),其实在发育的过程中,我们可能获取了学习的这个天赋(生命的奥妙)!!那么到底是有没有记忆呢?
再往前走走,妊娠第20天左右,胚胎的大脑原基形成。 2个月时,大脑沟回的轮廓已经很明显。 3个月时,脑细胞发育进入第一个高峰时期。 4~5月时,脑细胞仍处于高峰时期,。 6个月时,大脑表面出现沟回,大脑皮层的层次结构也基本定形。脑细胞140亿个,具备了一生的脑细胞数量,我猜测这个时候,神经元对胎动有了信号感应,同时神经元与神经元之间开始有了联系。 7个月时,大脑中主持知觉和运动的神经已经比较发达。 8个月,大脑皮层更为发达,表面的主要沟回已经完全形成。这个时候,胎儿外界的刺激会产生反应,神经元产生大量的信号,刺激着大脑。到第23周时,大脑皮层的六层细胞结构已成型。我觉得这个时候大脑皮层传送给海马体的信号,差不多开始诞生”记忆“。这是个极其复杂的过程。如果想深入了解可以看下这位仙女的知乎谷雨
大脑达到人生的巅峰时候(据研究表名是1000多亿),我们的脑细胞与神经元处于高度活跃的兴奋点,并在此节点上新生出大量的细胞胶质与神经元。那么新生的神经元是否会对其他的神经元产生影响?现在引入最新的研究成果 Adult-born hippocampal neurons bidirectionally modulate entorhinal inputs into the dentate gyrus
在这篇文章中提到研究人员发现,新生成的神经元—他们称之为成体新生颗粒细胞(adult-born granule cell, abGC)—依赖于从内嗅皮质的两个部分之一接收的信号,以不同的方式作出表现。他们解释道,如果abGC从外侧内嗅皮层接收到信号,那么它们会抑制它们附近的更为成熟的神经细胞的活动。但是,如果它们从内侧内嗅皮层接收信号,它们会做相反的事情,激发年老的神经细胞。乍一看,这新生的脑细胞会挑工作,还要给老细胞脸色看(不得了,不尊老)。那么新生的细胞有啥作用呢?对信号的处理产生条件,产生了选择。
先做一下简单的总结:
频率(我脑光一闪,频率?),频率是单位时间内完成周期变化的次数!
时间虽说是个虚无缥缈的存在,但是正是因为它的存在。才能证明过程的意义,就像搭建深度学习神经网络一样,如果不经过一定时间的训练,它是学不到任何东西。神经科学家尼古莱 库库什金说到”一段典型的记忆实际上只是重新激活你大脑不同部分之间的连接,这些连接在之前某个时间是活跃的。所有的动物,还有许多单细胞生物,都有过去学习的能力“。定义记忆与定义事件同样困难,在最普遍的意义上,记忆就是作用于神经系统的一个变化,该变化会导致系统的工作机制在未来发生改变。深度学习神经网络在对数据进行处理的时候会产生模型,训练好的模型就是记忆产生的成果。那么记忆又该怎么去理解呢?库库什近说:”当你深入研究分子,以及离子,酶,转录程序,细胞,突触和整个神经网络的状态时,你会发现大脑中并没有存储记忆的部位“这是因为神经元具有可塑性,它的这一特质使它能够产生记忆。记忆就是这一系统本身。记忆可能分布在整个大脑之中。人类的记忆都是从一个非常细小的微粒尺度开始的。”你的神经元,神经元伴随分子和由此产生的突触会将所有相关变动发生的相对时间顺序编码,他们将整个经历存储在一个时间窗口之内“
在发育的过程中,我们大脑中缔结的记忆网络为啥会消失呢?不知道大家看过《未来机器城》,电影讲述的是一个机器人的储存系统受到损害,每天要删除数据来维持自己的记忆系统。每天重复删除者对它而言不重要的数据,保留它喜欢的。在发育过程中,有新细胞诞生,有老细胞死亡,也有损伤,这些对我们的记忆有没有影响呢?大脑在处理这些数据的时候,是在构成一系列记忆,我们的神经元可能长时间处于活跃状态,于此同时,不同层次的皮层之间的神经元会建立起连接。时间长了,对数据高负荷处理的结果会发生损伤,脑中的细胞质会进行修补,进行转化。这时,我们的记忆就会消失,或者重组。这种过程在大脑发生了无数次。因此,脑中的环境,也就是神经元与细胞胶质每天都会有不同的变化。那么之前产生记忆的神经元与神经元之间可能随着脑的发育而被扯断,之间的联系也断掉了。所以呢,成长的代价就是失忆。于此同时,那些得连接少的细胞可能慢慢的被神经胶质转化掉了(可能成为其他东东)。当这个过程稳定下来之后,神经元与神经元就会发生新的记忆,这个时候产生的记忆将会稳固下来。
相对于人工神经网络,大脑中构成的这种天然,复杂,庞大,神秘的学习体统。它有啥优势呢?拿人的视觉系统来讲,(在发育的过程种)通过对光的感知,由3种视觉细胞把信号传送到感知系统,感知系统又会传送到海马体。由于白天都有大量睁眼的时间,所以工作量是巨大的,在此过程中,3种不同的视锥细胞对信号的传输,少不了对细胞的损耗(发育的代价)由于细胞的特殊机制,会对光地感知产生不同地变化。比如感觉到亮白与黑暗,对比度等等。这就是像素地调优,相当于我们对训练图片地数据集进行预处理一般。那么真正进入到我们脑中的是什么?
光线通过眼睛这个镜头,投射到视网膜神经元,每个细胞对应相机的一个像素。但是这个相机的美梦止于第一步。 当神经信号进入下一层,上丘,视皮层,更下一层, 海马,我们的信心就被打击的无影无踪。神经细胞的信号变得杂乱无序,再也构不成一张照片。但是当我们直接看这些信号,它们却一点不像我们看到的。就如同卷积神经网络(CNN)一样对图片进行处理,通过对图片地不断卷积来找出特征点,图像会变得越来越看不懂。
在Quiroga RQ., et al. Invariant visual representation by single neurons in the human brain. Nature. 2005 Jun 23;435(7045):1102-7.这篇文章中,它指出:深层脑区的编码,指向抽象的概念,而非具体的图画,它就像一个寻找不同事物间不变属性的计算器,通过不变性形成对事物的概念,然后通过概念的联系,重构世界。 这个观点和某些古代哲学家的观点,柏拉图和康德,不谋而合。构成世界基础的是抽象的概念而非具体的事物。不过没关系,海马体就是感知信号的,所谓的图片信息在大脑中只不过是抽象的表达概念,这并不影响它对视觉系统发来的信号进行学习。(参考文档 ;作者:许铁-巡洋舰科技)天赋这种抽象化的东西,理由好像没有强劲的说服力。但是从数学上讲,皮层与海马体之间的连接好像在不断的摸索中,获得了特定的激活函数(activation function),这相对于深度学习的神经网络来说,天壤地别。
1971年,O’Keefe在海马的CA3区和CA1区内发现了位置细胞(place cell)。一个特定位置细胞会在个体进入特定的位置区域时,激活达到最强;该位置称为细胞的位置域(place field)。个体在进入新环境后的几分钟内,位置域就会被确定下来,并且可以稳定存在几个星期到几个月(Kandel et al., 2013)。
如果认真学习过深度学习,以及神经元对信号处理这一部分有一定了解的化。对于上述所讲的调优,(无非是为了让神经细胞能对信号进行极强表述力的分类。)神经递质的类型、复杂的突触微结构、基于链接的化学信号的影响等等,这些影响传递神经递质的种种因素,会不会使神经元产生天然的激活函数?(有没有大佬在研究这个?)图片来自于此链接,图:内嗅皮层与海马投射的关系
看到这图,我的第一反映:RNN。海马体可能具备着RNN的所有特性。学习本身就是一个循环的过程,只是在循环的过程中会产生不同的权重。
假设脑中的海马体和内嗅皮层是空间魔术师集合体。这些魔术师对信号数据不停的进行“空间的扭转”,从而达到自己的目的。图片来自此连接
小编讲一些不相关的东西。如何成为智慧?从数据,到信息,到知识,再到智慧。这些是数据的最小单位成指数级增长而产生的。数据的产生达到一定量的时候,就会成为信息,对信息处理达到一定量的时候,就会产生知识,对知识的学习达到一定量的时候,就会成为智慧。它们之间是有层次的,智慧处于尖端的位置。
神经元在产生信号的时候,会产生动作电位。这个动作电位根据物理知识可求出出H电位和L电位。引入数学思想就是”1“和”0“。这两种信号的组合,也就是数学中的“二进制”。这些二进制产生的数据,通过组合传递就会下“信息”,同时成为“空间魔法师”的练习对象。在空间魔法师进行K次的练习和实验,每个魔法师都学了各种不同的属性魔法。(小编认为,睡眠的时候,他们对魔法练习学习与实现产生的巨大反应,可能使我们进行了一场或者多场梦境)。
这些情景经历了无数次之后,有些对皮层产生的影响是巨大的,有些很薄弱,很短暂。根据发生频率不同,神经元慢慢对数据产生一定地”认知“。比如,红,绿,蓝这3个光波进入到我们眼睛里时候,神经皮层就会有进行分类的操作,即使幼儿时的我们不知道红,绿 ,蓝这RGB。我们后期会通过联想学习进行语义定义从而加深这一过程。这样,我们在学习一张图片的时候,要比深度学习神经网络快的多。因为在此之前,我们的视觉神经系统已经对图像进行处理了将近几年,处理的数据量也远远的高于神经网络。并且,各类神经在一直进行视觉的处理,学习着,并运行着。所以我们对图像产生的学习方法要比神经网络高明的多。但是达不到最新深度学习预测的准确度。下一篇文章,我将写关于人类学习方法与数据结构和深度学习的差别。
读到这里的,谢谢你们的支持。
初篇文章就写到这把,忘我了好几天,一直在思考和查看资料。
里面有些文字,图片引用涉及到侵权的,请发邮箱 [email protected]