千米小说网

千米小说网>语言分析说的哲学观 > 二语言分析方法与计算机理论问题(第3页)

二语言分析方法与计算机理论问题(第3页)

计算机模型在本质上是物理世界的符号化,是数学和逻辑思想与计算机语言相结合的产物。我们必须借助符号、数学和逻辑来抽象现实世界中的各种结构、关系和特征,才能在计算机上予以处理。数学和逻辑是计算机科学作为一种具有理性的学科存在之根本。

计算机作为基于逻辑门电路的“一种经典逻辑机器”,③是逻辑学和数学的一种实际应用。计算机模型是运行在计算机形式系统上的模拟方法,一般从定性或定量的角度来刻画现实世界中存在的各种问题,并尝试运用强大的计算能力和数据资源,为现实问题的解决提供有效的数据支持。因此,计算机模型的内容源于对现实原型的抽象,其运行结果必定是基于对现实原型规律性的把握。抽象的角度不同,计算机模型的种类就不同。利用模型的目的,是决定使用哪种模型来运行的首要问题。

从对象原型中变量之间的关系来看,计算机模型可以分为确定性模型和不确定性模型。确定性计算机模型是对现实原型中必然现象的描述,而不确定性计算机模型则是对现实原型中存在的或然现象的描述。在确定性计算机模型中,变量之间的关系是确定的;而在不确定性计算机模型中,变量之间的关系则需要以概率分布或统计值的形式给出。事实上,不论是哪一种,计算机模型的建立,本身就是我们对对象原型规律性进行认知的一种确定性把握,是类比逻辑思维应用于计算机建模过程的结果。

一直以来,对现实原型表征的近似程度,以及数学和逻辑推理的可靠性,是决定计算机模型质量的核心所在。其中,数学和逻辑推理是对已经存在的各种判断之间的联系进行刻画的有效工具,这些判断之中就包括了各种自然规律。因此可以说,在一定程度上,计算机模型是对现实原型中存在的各种现象进行判断的基础上,所形成的各个判断之间的规律系统。这种判断之间规律的形成,就是对诸多判断进行的逻辑加工,此时的逻辑推理就是一种计算。

而我们判断逻辑推理结果是否正确的标准,不仅要看推理过程是否符合已有的逻辑规则,还要看结果是否符合我们的已有经验。也就是,能否在现实世界中为这个结果找到一个证明其存在或有效的实例。因为逻辑规律是对人类经验的归纳,逻辑的有效性源于利用那些符合经验的规律所进行的推理结果的合经验性。

虽然逻辑与数学赋予计算机模型以可靠性,但它们自身的可靠性却有待考量。这也是以追求终极真理的确定性世界观所不能容忍的。自身都无法保证科学性,如何成为所有其他学科可靠性之根本?尤其是在大数据时代,数据本身的复杂性以及处理数据工具的不确定性,对我们而言将意味着什么?这恰恰是关涉计算机模型思想之变革是否可行的根本性问题,也是网络智能化过程中难以逾越的关键所在。世界被符号化于网络之上,而网络则被模型化为终端可获取的状态。如何看待互联网世界与计算机模型之间的关系,是影响这个时代所有人理解其与世界之间是何种关系的根本问题。

毋庸置疑,在计算机形式系统之上,确定性计算具有绝对的优势。然而,在大数据时代,成也萧何败也萧何。早期,确定性作为计算机的绝对优势,在当前却成为计算机学科发展中最难以逾越的障碍。

传统图景中,科学立足于理性主义立场,即以数学和逻辑作为其可靠性的保障:数学作为一种“必然和先天可能的”存在,"与物理世界有某种联系”,“对于科学地探索世界来说是本质的东西”①;逻辑以“秩序”和“规律”为最基本含义②,“是关于推理和论证的科学”③广泛存在于人们的日常生活和思维中。而数理逻辑的出现,则将逻辑与数学相结合,为现代科学的知识体系打下了坚实的理性基础。理性主义作为一种世界观,早已深深根植在现代自然科学研究的各个领域。这是一种以世界必然是有秩序的和有规律的为信念的研究基点,所构造出的必然是可以用逻辑和数学语言来描述的理性主义知识体系。这种知识体系最大的体征就是可论证性,也就是预设着真的存在。

确定性计算机模型源于对世界确定性规律的把握,作为一种对现实原型在满足“一定条件下必然发生的事情”①进行判断的工具而存在。以经典逻辑为基础,用确定性知识和精确推理来保障推理结果的可靠性,是确定性计算机模型的主要特征。然而,确定性推理的弊病在于:

首先,实际应用中,在给定初始条件的情况下,我们无法保证初始条件永远不变。一次建模只为某个特定的应用服务,以一套公理化体系为依托,追求严密性的推理过程以及精确的推理结果。这使得模型对所运行的环境条件要求极为苛刻,稍加改动就必须重新建模。并且,确定性计算机模型对初始条件的数目要求也极高,初始条件的数目不能庞大到我们难以在其之上进行有效的逻辑推理。早期确定性计算机模型的开发成果,就是因为这些原因难以推而广之。

其次,确定性计算机模型所用的初始条件以及逻辑规则是有问题的,现实世界中没有多少事件能够完全符合确定性模型的要求。因为确定性模型所利用的初始条件以及推理规则,都是从现实原型中抽象出来的特征,而“特征是有问题的”,因为“不存在已经建立起的标准来判定特征是同一的还是有区别的”。“特征似乎分享了集合和数的缺点。它们不存在于空间和时间中,它们没有进入与物理对象的因果关系中”②。随着信息时代的到来,计算机描述能力的增强,表征现实原型的数据模型越来越逼近于“全息数据”。而以特征抽象为基础的确定性计算机模型,则更加难以胜任大数据时代对各类数据进行有效分析的要求。

2。不确定性对计算机模型思想的挑战

第一,确定性世界观对不确定性理论的影响。

到目前为止,计算机依然是图灵机理论在冯·诺伊曼结构上的实现。但需要引起足够重视的是,计算机并不等同于图灵机,二者的关键区别在于:“图灵机是无穷的,而计算机是有限的”,“因此任何计算机都可以用命题逻辑描述为一个(超大规模的)系统,该系统不受哥德尔不完备性定理的制约”。而图灵和哥德尔作为数学家,贯穿于他们学术生涯的“某些数学问题在原理上就是无法被特定的形式系统解答的”②。基于二进制的计算机形式系统,其局限性并不等同于图灵机,亦不适用于所有的数学问题。在有限形式系统可解的范围内,计算机必然要从确定性的数学和逻辑出发,通过一层层的形式转换机制,才能达到用确定性系统来构造不确定性计算的目的。

并且,在理性主义影响下,确定性的世界观依然是驱动现代科学技术向前发展的根本信念。即便在人们的日常生活和科研活动中存在着诸多的不确定性,人们对这些不确定性的理解,也是建立在可预测和可模型化的暗喻之上的。人们研究各种不确定性现象,目的是寻找隐匿于表象之下的秩序,或者是寻找如何控制那些看起来极为复杂的系统的方法。人类始终期望能够对世界的终极状态加以预测,可预测几乎是所有科学研究的出发点和归宿。

对于计算机模型的研究亦是如此。用简单的数学公式或抽象的数学模型去描述复杂的现实原型,几乎是所有不确定性研究的必然途径。人们总是期望用最小的代价实现对复杂的现实原型的模拟。对计算机模型而言,不确定性意味着“缺少足够的信息来作出判断”①,因而事先无法确切地知道某个事件的结果、或者事件的结果可能不止一种。例如,波兰科学家帕拉克(ZdzislawPawlak)提出的粗糙集理论就是一种用于处理不完整或不确定性数据的有效工具②,可以从不精确、不完整或不一致的数据中发现隐含的规律③。不确定性对于决策而言是一个不好的存在,它导致系统给出的决策是不可靠的,甚至是糟糕的。在网络商业化应用中,不确定性带来的很可能是直接的巨大经济损失。因此,消除不确定性因素、提高模型的可利用价值,一直是不确定性计算机模型努力的方向。

第二,计算机模型中的不确定性。

通常认为,计算机模型的构建包括模型规划、数据收集、模型设定、校准与确认、仿真与评估等几个阶段。与确定性计算机模型相比,不确定性计算机模型往往更符合现实需要。由计算机解决的各种实际问题,往往不需要绝对正确和绝对精确的结果。在不确定性计算机模型构建的整个过程中,可能面临以下几个方面的不确定性问题:

其一,在从现实原型中抽象出计算机模型的过程中产生的不确定性问题。人类的认知和记忆中存在着大量的不确定性,要想把人类从现实世界中获取的各种复杂性认知融合到计算机模型中去,就必然要以损失关于现实原型的全息数据为代价。在这一过程中,会出现各种各样的不确定性问题。由于建模对象的不同,所面临的问题也会有所不同。此外,针对同样的现实原型,可以构建不同的计算机模型,在模型生成的各个阶段——从数据输入到参数设置、再到模型结构设计与模型处理的结果——都存在着各种不同的不确定性因素,这些都导致了计算机建模过程中的不确定性问题。

其二,计算机模型的规则系统中存在的不确定性。由于计算机模型是一个基于规则的系统,关于规则有可能存在以下几种不确定性:

(1)存在于单个规则中的不确定性。单个规则的不确定性是对现实原型的单个特征进行抽象的结果,是认知和表征不确定性的直接体现。其中,在规则的前件和后件中通常会遇到由于误差、证据的似然性以及证据组合等因素造成的不确定性。这类不确定性需要通过验证来规避。

(2)由于规则间的不兼容性所导致的不确定性。在一个计算机规则系统中,所有的单个规则都是恰当的,并不意味着整个规则系统就是可靠的。很可能由于抽象角度的不同,致使规则之间出现不兼容性,从而导致推理结果是不确定和不可靠的。与规则的兼容性相关的不确定性有可能出现在规则间的矛盾、规则包含、规则冗余、遗漏规则以及数据融合等方面。对于这种不确定性,需要通过减少每个推理链中的确定性,来减少局部以及整个模型中的不确定性。

其三,算法理论中的不确定性。

计算机模型中,与不确定性相关的算法理论主要有概率理论、模糊集理论、粗糙集理论、混沌与分形等。它们最大的共性就是都属于算法复杂性的范畴。“一个数据序列的算法复杂性”是指“作为输出而得到这一序列的计算算法的最小长度”②。也就是说,“算法复杂性即是一给定(有限)序列的最简短扼要描述之长度”③。算法复杂性处于最大可能的算法复杂性与最小可能的算法复杂性之间。完全随机序列有着约等于其自身长度的最大可能的算法复杂性,并可认为其中包含的信息是最大的;而一个单符指令序列因其完全可以将该单符再生而具有最小可能的算法复杂性,且其包含的信息为零。④而“信息涉及的基本条件为:(i)一种鲜明的空间中的对称性破缺”,“(ii)一种不可预测性要素与揭示读者开始不能推断的课题或讯息相关联”。对于一组包含信息的富信息序列而言,我们对其局部讯息的了解不能成为对其整体结构加以推断的依据,“不管这局部有多大”。在这个意义上,整体结构是不可预测的,“可视为一随机过程”⑤。

需要注意的是,算法复杂性不同于物理科学中的复杂性。在物理科学中,“简单与复杂、无序和有序之间的距离远比人们通常想象的短得多”①。从简单、有序状态到无秩序无规律的分子混沌状态,只是几埃(亿分之几厘米)的距离。也就是说,在物理科学中,简单性由分子之间的短程特性决定,而复杂性则同分子之间的长程特性相关联。②复杂性“似乎已经根植于自然法则之中了”,“将揭示不同等级的系统之间的某些共同性质”③。自然客体的复杂性处于最大可能复杂性以及最小可能复杂性两个极端情况之间。这种特性与算法复杂性处于最大可能的算法复杂性与最小可能的算法复杂性之间这一特性的相似性,是物理科学中的复杂性与算法复杂性之间最大的共性,也是可以将这两种复杂性相联系的最主要因素。

在计算机科学中,当说到复杂性与复杂系统这两个概念时,需要甄别当这两个词用于某个特定对象时所特指的含义。通常,复杂性比复杂系统的意义更为明确。计算机模型中所涉及的不确定性算法理论,每一种都有其优势以及不可避免的缺点。这就需要根据特定现实原型的特征,综合利用各种相关理论来解决不确定性计算机模型中的问题。这才是提升模型处理能力的必要手段。但问题是,当你需要模型化的现实原型的不确定性特征需要不止一种理论时,有可能没有相应的编程工具帮你在一个模型中同时实现多种不确定性理论的应用。此时,联合其他开发工具和资源是必要的选择。

当“时间之矢”不再隶属于现象学范畴,人们无须纠结于爱因斯坦构造的那难以理解的“时间错觉”,才能够在时间这一基本维度中去感受生命真实的存在,当非平衡过程物理学赋予不可逆性以新的含义,它便不再是“一种如果我们具备了完善的知识就会消失的表象”①,而是地球上生命现象之所以会出现、并不断演化的根源之所在。当不稳定系统动力学使自然法则可以表达可能性,相关关系便获得了向因果关系讨要话语权的资本,当互联网以不可思议的速度深刻变革着人类的生存模式,“一切皆可量化”②,数据开始主宰一切,绝对精确为效率让路,信息时代向大数据时代迈进。

在这样一种大数据时代预设下,传统的计算机模型思想难以解决各种新出现的应用问题,一种全新的建模思想有待形成。大数据时代,不确定性对于计算机模型思想的意义在于:

首先,大数据时代的不确定性问题,向传统计算机模型思想中的经验性提出挑战。传统的计算机模型,无论是确定性的还是不确定性的,都是对经验的一种概括和总结,同时亦预设着对结果的某种程度上的把握。从20世纪90年代初开始的互联网商业化进程,加速了大数据时代到来的步伐。互联网本身就是一个没有确定性物理规则的实体,其上的数据资源更是以各种不同的形态存在于各种网络、各种类型的数据库之中。这些数据资源日益庞大且不断更新,为计算机模型的构建带来了极大的困扰。

在互联网商业化时代,数据爆炸带来的是人们对以往经验的否定。在海量的数据面前,有着明确预设的经验规律不再可靠,人们强烈感觉到信息不完善给决策带来的困扰,更不用说利用已有的经验对未来进行预测。但令人感到尴尬的是,“科学又无疑是经验的”①。当人类将其在物理世界中经验到知识的归纳为科学时,经验的不确定性,使得传统数学与逻辑中的确定性思维,以及不确定性计算,都难以逼真地描述某些人们从现实物理世界中归纳出的科学知识。尤其在大数据时代,即便是数学与逻辑的结合,也难以胜任不断出现的各种不确定性问题。特别是在语义理解以及网络智能化的计算机模型方面,人类经验难以归结为一条条适用于各种语境的计算机可执行的规律,进而无法形成有效的模型处理系统。这也是计算机模型思想一直无法获得令人满意进展的一个主要原因。当描述世界必然现象的确定性模型不再独步网络、且描述世界或然现象的不确定性模型也难以满足复杂的网络应用时,计算机模型思想中固有的基于大量经验总结出的规则体系,就成为大数据时代模型思想变革面临的一个最主要的难题。

计算机模型在不确定性问题上取得的进步,极大地改善了人们处理数据的技术水平,小数据时代的随机样本已被全体数据所代替。现有的不确定性计算机模型的最大优势,是能够在已知的海量数据基础上发挥不确定性算法的优势,尤其擅于处理那些具有某种复杂性的现实原型的模型。但这种处理的有效性是建立在对现实原型大量原始数据的把握之上,以传统结构化的数据库为基础。然而,“黑天鹅事件”告诉我们,未知的才是更重要的。大数据时代,人们追求的是数据化而不是数字化,更关注未知因素有可能对自己造成的重大影响。

在数据问题上,对人类而言,过去和现在的区别在于数据的量以及处理方法上。过去人们需要面对的数据量少,处理方法落后,数据获取渠道不畅且获取成本很高。现在人们被各类数据所包围,尤其在网络上,信息获取方便且成本很低,但数据量巨大。如何获取有效信息,甚至如何避免不相关信息或价值含量很低的信息对我们正常工作的干扰,几乎成为每个使用网络工具的人每天必须克服的难题。个人数据管理所涉及的不再是仅仅针对个人数据信息的问题,还包括所有非个人自愿却不得不面对的那些大量的“意外数据”。它们不是我们当前最需要的数据,但却因为我们使用了别的信息而被迫接收它们。无论在视觉效果上还是心理层面上,它们都很有吸引力,会引导人们支付更多的时间甚至货币去消费它们,带来的大多是负效益,但我们却难以管理它们。当互联网上只有5%的数据是可用于传统数据库的结构化数据时,人们必须学会利用剩下那95%的非结构化数据。当我们难以在海量的数据之间建立精确的逻辑链时,因果关系为相关关系所取代。人们没有必要知道为什么,只要知道是什么就足够了。①已有的不确定性计算机模型,无论从算法上还是逻辑推理上,都无法满足人们的现实需求,一种新的不确定性世界观,正从一个理性概念转变为大多数人日常都可以感知到的现实存在。

根据数据的不确定性,人们提出过不同的数据模型理论,其中最核心的不确定性数据模型思想就是可能世界模型(possibleworldmodel)理论②,主要用于构建与特定现实原型的场景相匹配的不确定性数据模型,③可以从一个不确定性数据库衍生出多个被称为可能世界实例的确定性数据库。而将不确定性与数据的世系(Lineage或Provenance)有效地整合在一起④并提出相应的算法,亦成为计算机模型必然要面临的一个问题。数据的世系已成为研究单一数据库以及跨数据库的数据的产生与演变过程的一种主导方式。事实上,传统的计算机模型,无论是确定性的还是不确定性的,在如此海量且不规则的非结构化数据面前都显得捉襟见肘,不确定性计算机模型理论亟待变革。大数据意味着,计算机模型的构建,不再仅仅是搜集足够的数据并抽象出能够真实反映现实原型的规则体系和算法结构,而是帮助用户洞察这些庞大的非结构化数据之间的关系、并利用其为决策制定和价值创造贡献力量。正如孔茨(KathyKoontz)所言,“重要的不是数据,而是如何使用数据”。在大数据时代,“数据的核心是发现价值,而驾驭数据的核心是分析”①。这些海量存在的非结构化数据已成为计算机模型思想变革着力要解决的核心问题。

互联网的扩张与智能终端的普及,迅速将人类推进到一个超乎想象的大数据时代,在带给人类便捷的同时,不可避免地也带来了困扰。变革的速度考验着人们的适应能力,网络化程度越高,困扰就会越大。对整体形式的确定性把握业已成为一种奢望,在各类庞大的、实时变化的数据面前,人们变得不再自信满满,数据选择成为大数据时代每个人时常都会遇到的问题,机会成本正在成为一个难以估量的因子。在尚未学会如何驾驭数据之前,我们往往先迷失了自己。

虽然互联网在以前所未有的速度扩张,但各相关领域却始终没有取得多少实质性的理论突破。不仅强人工智能的愿望遥不可及,就连扩张过程中出现的实际应用问题也难以给出一个具有建设性的解决方案。在大数据时代,以面向对象、模块化、封装、抽象化以及测试为主要特征的经典程序设计思想,显得无所适从,而兴及一时的云计算、深度学习、机器学习以及大数据,则被业界戏称为计算机界的四大俗。之所以说它们俗,很大程度上是因为,在解决同类问题上,人为地创造出四个颇具市场效力而缺乏学术价值的概念,却没有多少本质上的区别。真正的突破尚未取得,但对获取突破的可能路径已经达成了较为一致的认识,那就是,必须到作为计算机之根本的形式语言、数学以及逻辑理论中去寻找,到新的不确定性理论中去探索。

总而言之,大数据时代对计算机模型思想而言,带来的是一种全新的不确定性理念。它不仅颠覆了人们对传统的确定性以及不确定性理论的理解,而且也很有可能导致计算机模型在未来对新的不确定性算法的突破。无论是市场还是学术,都希望突破瓶颈期,尽快解决网络扩张过程中出现的各种实际问题,并且为可能到来的以互联网技术和可再生能源技术相结合为主要特征的第三次工业革命,扫清一部分技术障碍。“经济是一种有关信任的游戏”①,构建以网络技术为依托的社会信任机制,将是未来社会经济繁荣发展的重要支撑。而互联网在快速扩张中出现的各种问题,使得公众对互联网自身的安全问题都难以产生应有的信任感,更不用说对网络虚拟生活中的人际关系、经济关系、数据通信安全等各种关系产生信任。由此,利用互联网技术来推动社会变革、并建立相应的信任机制,实现起来就变得困难重重。如果说公众信任是经济发展之依托,那么,互联网则是大数据时代这一依托之技术根基。要想获得真正的突破,不仅需要找到计算机模型在不确定性领域的症结所在,更主要的是能够整合市场、技术以及管理等诸多相关资源,才有可能在各个领域以及各个层面之间寻求一个适合全局发展要求的契合点,从而制定出可执行的方案。

已完结热门小说推荐

最新标签