【科学分析】汉语是世界上最先进的语言(转载)



楼主 crysisdoom  发布于 2017-11-23 20:17:00 +0800 CST  
为什么汉语是世界上最先进的语言?!

楼主 crysisdoom  发布于 2017-11-23 20:17:00 +0800 CST  
一、语言水平高低的评判准则

口语,实际上是一种通讯协议。就是说,语言实际上是把人的思想通过发音器官变成一串频率不同、波形不同的声波,然后被另一个体的听觉器官和相关的脑部组织重新转变回思想。通讯协议,就是一个规则,一个规定了应该如何把思想/信息转变为易于传输的信号的规则。

楼主 crysisdoom  发布于 2017-11-23 20:18:00 +0800 CST  
计算机上,通讯协议有两个基本评判标准:【传输效率】和【抗噪能力】

传输效率:在单位时间里,按照该通讯协议能够传输多少信息。

抗噪能力:这种通讯方式能够在多大的噪音下仍然保证绝大多数信息正确传输。

【传输效率】又分两个方面,编码效率和传输速度

编码效率:这个通讯协议能够把一个信息用多短的一串信号来表达

传输速度:一段信号,能够以多快的速度传输

评价一种语言的口语是否先进,就要分析上面这几个问题。

楼主 crysisdoom  发布于 2017-11-23 20:18:00 +0800 CST  
评价一种语言的口语是否先进,就要分析上面这几个问题。

文字,则是一种数据存储方式,存储格式的要求与通讯协议不同,存储格式要求储存空间小、读写速度快,相比于读取速度,书写速度是次要的。这是因为平均下来一次书写对应很多次阅读,而人在阅读文字上花的时间一般远远大于书写。尤其是现代社会,手写越来越少,计算机输入、打印、印刷都大大加快了记录文字的速度,而阅读速度却没有多少提升,因此在现代社会,阅读速度就在定义文字水平上占据了更重要的地位。

需要注意的是,下面的讨论中“音节”均采用西方语言学定义,粗略地讲就是一组连续元音与其前后的辅音共同构成一个音节。比如To、Bliss、Strength是单音节。汉语Ba、Chuang也是单音节,虽然单音节词的发音长度并不完全相同,但至少是可比的。

楼主 crysisdoom  发布于 2017-11-23 20:19:00 +0800 CST  
二、语言的分类

世界上的语言大致分为两种,【孤立语】和【综合语】

(综合语 其下又划分为黏着语、屈折语等子类型)

【孤立语】 单纯通过词与词之间的关系来表达不同的意思

【综合语】 可以通过改变词的形态来表达不同的意思

我们举个简单的例子:

中文(孤立语):我昨天告诉他了。

英文(综合语):I told him yesterday.

英文你首先可以看到told和him两个变形,其中把tell变成told表示过去发生的动作。把he变成him表示客体

而中文用昨天来直接指明时间,如果不指明时间则需要用“已经”、“过”之类来表示过去,而并不改变词的形态,中文还通过各自的位置来体现谁是主体谁是客体

实际上,英语已经是综合语中非常接近【孤立语】的了。英语的未来时态用的词形和一般时态没有区别,而很多其他语言中不同的时态都是用不同的词形来表达的。英文对于各个词的位置有明确的规定,而很多其他综合语,诸如拉丁语中,词的位置可以不固定。换句话说就是可以说出这样的句子:Him yesterday told I 然后通过词形里的主格词形和宾格词形来判断究竟是谁告诉了谁。

楼主 crysisdoom  发布于 2017-11-23 20:20:00 +0800 CST  
这是非常糟糕的,因为在读取的时候,总是有先后的差别,我们希望的读取顺序是:先读取我们的大脑需要先处理的部分,【孤立语】天然就有这种优势,很多【综合语】在逐步的发展中也确立了类似的规则,比如拉丁语的后裔之一——法语

上古古汉语也曾是一种【综合语】但是由于汉字的限制,古汉语的词形变化仅存在于口头中,比方说文言文中的使动用法,如“文王以百里之壤而臣诸侯”中的臣(使臣服,在上古时期,是需要在汉字发音前加“s-”音来标识的,就是一个典型的综合语的词形变化

有人认为现在的汉语仍然带有一定的综合语色彩,他们认为加入诸如“了”、“的”这种助词实际上就是词的变形,这种看法就只能见仁见智了。

楼主 crysisdoom  发布于 2017-11-23 20:21:00 +0800 CST  
从整体发展趋势来看,世界各地的口语都是从【综合语】向【孤立语】发展,虽然不能说【孤立语】就一定优于综合语,但是这个趋势说明【孤立语】的某种特性符合历史的发展,这个优势就是数据的压缩

楼主 crysisdoom  发布于 2017-11-23 20:22:00 +0800 CST  
三、数据压缩:【孤立语】的高超之处

当计算机发展到了新的时代,人们开始研究如何在计算机上存储视频文件,一开始的方案极其简单,就是把一帧一帧图像全部都存储下来,但是这无疑是低效的,因为这里面的冗余信息太多

举个简单的例子,一个夜晚的场景,画面上很多地方都是黑的,何必把每一个点的色彩反复记录呢?所以接下来的一个思路就是,不再存储每一帧图像的完整信息,而存储下一帧图像与上一帧图像之间的差异之处,两幅图像中颜色一样的部分全部跳过

【孤立语】恰恰就具有这样的效果

举个简单的例子,一个人在用汉语谈论昨天发生的事情时,只需要一开始提及“下面这些事情都发生在昨天”,后面就再也不必提及时态了,而英文,则需要反复使用时态来表明这事情发生在过去

在交流时你需要时刻考虑时间、主格/宾格、数量、主动/被动,这对交流是有影响的,当然,熟练使用这种语言之后会大大降低考虑这些的时间,但是即便熟练的综合语使用者还是会在这方面犯错,在上下文的帮助下,这些变化都可以省掉

时间变形,可以依靠在第一句中加入时间状语完成描述,其后描述相同时间段的句子就再也不用考虑描述时间了,这就是【孤立语】的数据压缩能力。

楼主 crysisdoom  发布于 2017-11-23 20:23:00 +0800 CST  
随着人类社会交流量的上升,一次交流的上下文就变得丰富起来,很多在单词、单句的条件下很有效率的信息交流方式,也就显得越来越冗余了,因此世界上的各个主要语言纷纷向【孤立语】靠拢。

关于各个语言的表意效率,也就是信息密度,2011年法国里昂大学做了一个实验

http://ohll.ish-lyon.cnrs.fr/fulltext/pellegrino/Pellegrino_2011_Language.pdf

这个实验里,研究者找了59位不同语言使用者,其中包括英语、法语、德语、日语、汉语、意大利语和西班牙语。为他们提供了20段文字,这些文字都翻译成各自的语言,然后请这些人分别用正常语速朗读,研究者全程录音,然后研究者计算所有音节数量,计算朗读中表现的义项(表意的基本单位)的数量,最后得出结论

研究的结果是

【汉语】信息密度为0.94,位居 第一

【英语】信息密度为0.91,位居第二

德语(0.79)

法语(0.74)

意大利语(0.72)

西班牙语(0.63)

日语(0.49)

此处信息密度是通过计算每个音节所包含的义项数量来获得的,由于义项的数量是从原始文本——英文版里统计的,翻译之后有可能会增加或减少义项,为防止翻译过程中的扭曲造成数据标准不统一,各个语言的文本都被单独翻译为越南语,然后与各自越南语文本中每个音节所包含的义项数量相除,最终得到比较公平的数据

这让我不由地想到,经过大规模注水的现代汉语信息密度还是这么高,那么文言文究竟已经高到了何种地步?很遗憾没有这方面的研究。

楼主 crysisdoom  发布于 2017-11-23 20:24:00 +0800 CST  
不过,根据使用频率进行加权平均,现代汉语平均每个词中的字数差不多是1.5左右,在文言文中,其中很多都是用单音节词表达的,折中一下,我猜想文言文的信息密度达到现代汉语的1.25倍应该是不成问题的,这在古代更是个恐怖的数字

因为拉丁语可不是比现代欧洲各主要语言简单,受到古代文字记录空间的限制,汉语的显然在文字记录方面更加占优,这也许就是我国古代文字记录非常丰富的原因所在

有人说,音节不能作为衡量信息密度的单位,因为不同的音节,发音长度很不一样。这个问题提的非常好,事实上,我下一节就要讲到【英语】与【汉语】发音长度的问题,英语单音节平均发音长度比汉语长,因此在口语的信息密度方面,【汉语】的优势更大。

楼主 crysisdoom  发布于 2017-11-23 20:25:00 +0800 CST  
四、传输的优势:声调

口语信息的传输,是通过声音完成的

声音一般分为四个部分:音质、音高、音长、音强

对于语言中的一个音节来说,音质指的是其中辅音与元音的组合,其他三个都很好理解。现代语言不太规定【音强】,因为这实在无法在各个人之间得到统一,而且受到说话人的距离、情绪、身体状态等影响,此处需注意,英语中的“重读”实际上是音高变化,而剩余的三个元素,则都在语言中得到了广泛的运用

拿汉语举例

【音质】很容易理解,就是发音除去声调

而声调本身则分为【音高】和【音长】两项

汉语普通话的四声,是四种不同音高变化模式

一声 是 保持音高

二声 是 音高由低到高变化

三声 是 音高从高到低再到高

四声 是 音高由高到低

虽然我们语文课里说轻声是没有声调,但实质上轻声是缩短音长,轻声一般是缩短音长的四声或一声(有时音高很低),不过轻声很短,比较难以听清,所以普通话中仅作为特定用途使用 (语气助词、复数标志等)

楼主 crysisdoom  发布于 2017-11-23 20:25:00 +0800 CST  
英语的【重读】实际上是音高的差异,所以严格地说,英语是有声调的,只不过英语的音调只有两个:高和低,但是英语中音调仅用于部分音节,除了表示疑问、强调等情况,通常英语单词不变调,除少量英语单词(如Record)外,英语单词不借助音调来区分不同的词义,英语的确使用音长要素(如Sheep和Ship)由于英语一般只用音质和音长来区分词义,所以一般也认为是一种没有声调的语言。

楼主 crysisdoom  发布于 2017-11-23 20:26:00 +0800 CST  
首先从【编码效率】上,我们可以说【汉语】是世界上编码效率最高的语言

汉语是世界上为数不多的使用音高来区分不同单词的语言,因此从编码上说,汉语发音的表意能力就比一般语言高出一个维度,也就是说,使用单个音节,汉语能够表达的不同信息的种类,理论上最高可以达到一般外语的4倍

为什么外国人学汉语学得这么辛苦,而中国人学英语则没有那么辛苦?就是中国人是已经掌握了在发音是音高变化,现在再去学低级的两个固定音高。而在学习汉语中,很多外国人最吃力的问题之一就是声调。因为只习惯于两个固定的音高,而没有听到过、练习过在发音时连续变化音高。

楼主 crysisdoom  发布于 2017-11-23 20:26:00 +0800 CST  
有人提出,声调本身会影响发音速度,这当然是存在的,比方说二声,要求发音时音调逐渐上升。要表现出这个,发音时要表现出两个音调,自然是要比单一音调要费事,但是声调的好处在于,能够在同一组辅音和元音组合的基础上产生出多种不同的发音,所以就不必借助更多的辅音来区别两个具有类似发音的词(比如英文life和light)

英文音节中,辅音-元音组模式的音节,发音确实比汉语略快。但是其他模式,诸如辅音-辅音-元音组-辅音(Blight)或辅音-元音组-辅音,往往就比汉语发音慢了。而辅音-元音组模式的音节,由于英语缺乏音调,所以数量远小于汉语。整体平均下来,英语单个音节的发音慢于汉语。

楼主 crysisdoom  发布于 2017-11-23 20:27:00 +0800 CST  
对于“英语单个音节的发音应慢于汉语”这个结论,可能有的人觉得不是很信服。我们来举一个非常简单的例子,普通中国人的初等数学能力往往超过欧美。这并不简简单单是教育的问题,更关键的,这是中文对数字命名结果。

汉语所有数字均为单音节

其中6和9有两个元音(或按照国际学术便准,三个元音),发音稍慢

0有后鼻音,发音可能稍慢,还有几个带卷舌音,可能会稍慢

英语所有数字,除7以外,全部都是单音节

其中覆盖了“辅音-元音”结构(如4)

“辅音-辅音-元音”结构(如3)

“辅音-元音-辅音”结构(如5)

“辅音-元音-辅音-辅音”结构(如6)

"元音-辅音"结构(如8)

双元音结构(如0,注意一般数字里0读“ou”,不读zero,后者实在太费劲了)

可以说英语的这些数字大致包含了英语的各种单音节词的音节结构,当然这里还没有最神奇的辅-辅-元-辅-辅结构,但是那个和单元音结构一样比较少见。

楼主 crysisdoom  发布于 2017-11-23 20:28:00 +0800 CST  
那么平均下来英语的数字比汉语慢多少呢?

首先我们需要知道,人对数字的短期记忆,实际上是对数字发音的记忆。换句话说,你能记住的数字位数,是由数字发音的总长度决定的

研究表明(详细请下载,自行阅读)http://deepblue.lib.umich.edu/bitstream/handle/2027.42/26140/0000216.pdf?sequence=1

中国人从小开始短期数字记忆能力就高过美国人,该文献说明,美国大学生的数字记忆长度平均为7.2位,中国大学生为9.2位。美国大学生的短期数字记忆位数,是中国学生的78.26%。换句话说就是,英语数字的平均发音长度比汉语数字高27.78%,去掉英文数字7(双音节)对平均音长的影响(10%)那么平均下来,单音节英语发音长度大概比汉语高17.78%左右。

更进一步,中国的数字都是彻彻底底的单音节,因此可以采用绝对逻辑的方式构建整个数字表。九十六,就是九个十加一个六。英语是“90”(与九和十都不同的特殊词)再加一个6。法语是4个20加16

【汉语】是一种最简洁而最富逻辑的结构,在世界上是极为罕见的,九九乘法口诀表,就是构建在这个基础上的。其他国家的儿童如果想背下来这张表,可以说比中国儿童难了几倍,这种语言上的优势就提高了中国人的初等数学能力

楼主 crysisdoom  发布于 2017-11-23 20:30:00 +0800 CST  
顺便,还有人说,古汉语声调更多啊,难道汉语越发展越回去了么?这当然是错误的,有些音调受说话者情绪等条件的影响,在辨识的时候不确定性因素比较多。这个问题我们将在抗噪能力一节中详细讲解。

楼主 crysisdoom  发布于 2017-11-23 20:30:00 +0800 CST  
五、信息论上的优势

从信息论角度来考虑,编码是很有学问的。举个例子,我们知道计算机传输信息,实际上传输的都是0和1。那么,如果我们传输的各种信息出现的频率不一样高怎么办?答案是,出现越频繁的,编码越短。这样就能提高总体效率

比方说,我们只有四种信息要传递,按一般的想法,自然是把这四种信息分别用00、01、10、11来表示。每个信息都需要用两位二进制数来表示,也就是说传播100条信息需要发送200个二进制数。但是如果其中有一种信息出现的概率是91%,而另外三种分别是3% 那么就可以使用另一种编码方式:1,01,001,000 平均下来这种传播方式传播100条信息需要发送91+2*3+3*3+3*3=115个二进制数。显然比前面那种效率要高。

楼主 crysisdoom  发布于 2017-11-23 20:31:00 +0800 CST  
世界各主要语言经过了几千年的进化,其词汇的长度分布,都比较符合信息论的要求,你会发现各个语言中越常用的词,一般就越短。英语里,我、你、他、她、我们,都是单音节词。

楼主 crysisdoom  发布于 2017-11-23 20:31:00 +0800 CST  

楼主:crysisdoom

字数:15171

发表时间:2017-11-24 04:17:00 +0800 CST

更新时间:2020-09-07 22:19:41 +0800 CST

评论数:142条评论

帖子来源:百度贴吧  访问原帖

 

热门帖子

随机列表

大家在看