雨果说:世界上最宽阔的是海洋,比海洋更宽阔的是天空,比天空更宽阔的是人的心灵。让心灵着迷而陶醉的是丰富多彩的信息世界。今天和大家聊聊信息和信息检索。
说到信息检索,就不得不谈到信息。那什么是信息呢?这就不得不谈到一本信息研究领域的奠基之作《信息论》。今天我想和各位老师聊聊这个信息与信息检索,和大家说说这本信息论,并根据自己的工作,谈谈信息检索的一些体会和心得。
一、信息与知道
(一)可能性空间
世界上许多事物并不是从一开始就注定要发展成现在这个样子的,是事物发展的初期,他们往往有多种发展的可能性,由于条件,但更多是纯粹机遇的关系,最终才沿着一个特定的方向发展下去。
任何事物都有一定的可能性空间,事物具体发展成为可能性空间的那一个状态,要看条件而定。战国期间的杨朱:“歧路之中,又有歧焉”,这应该可以算作中国古人最早发现的“事物可能性空间”这种展开方式。生物进化也是生命可能性空间的展开。
(二)可能性空间与“知道”
1、“知道”是怎么回事儿?
对该问题的深刻思考有这么两次:一次是2000多年前。庄子和惠施得“观鱼之乐”第一次对“知道”本身发出了疑问。子非鱼安知鱼之乐?第二次是香农大师石破天惊的“信息论”。
香农将知道定义为:人获得信息的过程。怎样才能“知道”就是信息怎样传递、怎样获得信息的过程。绝大多数情况下,“知道”是一个可能性空间变小的过程。比如,“我看见西湖边站着一个小嫚” ;“我接到了一个电话,有个妹子明天来找我” ;“天气预报说,明天要下雨” 。这都是获取信息的过程。在这一过程中,事物变化的可能性逐渐在缩小,最终会停在某一个状态。但我刚才说了,绝大部分,而不是全部。也就是说平常所说的“知道”并不局限于可能性空间变小这一过程。比如,青岛市地震局最近预报,近期青岛市南区可能有地震。原来青岛人知道这一段时间脚下的大地变化的可能性状态只有一个“不震”。但发布地震预报后,使得知道的可能增加到两个,“可能震”与“可能不震”。在这个“知道”的过程中,青岛人头脑中关于事物变化可能性空间不是变小了,而是变大了。因此:严谨的“知道”,其定义应该是头脑中关于事物变化可能性空间变大或变小的过程,从个人可统计的经验看,“知道”是可能性空间变小的过程。今天和各位老师所说的知道、信息、检索都是指可能性空间变小的过程。
2、信息量与比特
互联网时代,各位老师肯定都接触过类似术语“比特”、“128G”、1024T等等,这些单位是什么意思?这些单位表示信息量的大小。信息量的度量是基于概率思维。概率是用来表示各种可能性实现的机会大小的一个量。把必然发生的事件的概率规定为1,把绝对不可能发生的事件的概率规定为0。这样就可以通过概率来严格的计算信息量的大小了,实际的计算中,没有这么复杂,可以直接简单的用可能性空间的变化来度量信息量。
举个例子,我去某公司找紫妍,紫妍所在公司一共1000人,我从门卫大爷哪里获得一个信息:“紫妍在财务办公室”。这句话让我获得多少信息呢?可以用可能性空间的缩小来衡量。我们假设财务办公室100个人。没有获得到这个信息前,对于我来说,紫妍所处的可能性空间是1000;获得这个信息之后,紫妍所处的可能性空间是100,那么获得信息为100/1000等于1/10。一般不直接用十分之一来表示信息量,而是用十分之一的负对数,即-log(1/10)=log10。为什么用负对数,为了好算。这种表示方式可以将多次获得信息量相加,总而获得总的信息量。比如来到财务办公室前又获得一个信息,紫妍在靠窗的那一排(假设靠窗的一共10个人),二个信息使得可能性空间缩小到10/100,两次获得信息总量,是我知道紫妍在公司的可能性空间的总变化为:10/100 乘以10/100等于1/100。负对数可以将两次的信息量直接加总,等于log100。用负对数表示的第二个好处是,获得的信息量总是正的。如果可能性空间没有变化,获得信息量为零,如果可能性空间扩大了,信息量为负值。此时人对某件事比较确定的认识就会变得模糊。实际应用中,一般以2为底的负对数来计算信息量,单位成为比特。
(三)信息传递与庄子观鱼
从数据到信息,一个关键的属性区别就是信息的可传递性。信息传递有几个重要的环节,信息源、信息通道、信息接收者。传递就是指信息源和接受者两个系统之间的联系。是一个事物对另一个事物的影响。庄子观鱼的争论本质上是信息传递问题。惠施认为:人不是鱼,人不能知道鱼是否快乐。也就是说鱼是否快乐是不能作为信息来传递的。庄子抓住了惠施的一个观点,并将其推而广之,即如果鱼是否快乐,不能作为信息传递,那将意味着任何事件都不能作为信息传递,惠施和不可能知道庄子是是否知道了。
信息传递是传递物质还是传递能量?都不是,信息的传递是指可能性空间缩小的过程。信息源发生的确定性事件是它的可能性空间缩小了,经过传递,这种缩小最终导致信息接受者可能性空间的缩小。信息的传递,传递的是可能性空间的变化。
庄子和鱼
二、信息存储、信息检索
(一)信息不是客观存在
信息只有在传递中才有意义,离开了信息源、通道和接受者之间的联系来谈信息是没有意义的,研究信息就是要解决客体与人的主观认识主体之间的传递过程,不能脱离主观主体来谈信息。
从认识论的角度而言,信息不是纯粹的客体,而是主观主体和客观认识对象的桥梁。任何信息经过人的思维都会被变换,切不可把人的头脑加工的,带有主观色彩的信息与所发生的客观事件混为一谈。举个例子“哥廷根心理学会议村夫实验”。四十个富于观察力的心理学家云集在西德的哥廷根开会。忽然,一个村夫冲进会场,一个黑人紧追而入,后者手持短枪。两个人当众搏斗起来,忽然听到一声枪响,两个人便一道跑了出去。这紧张的一幕只延续了二十秒钟,给目睹者留下了深刻的印象。于是,会议主持者提议每个与会者立即写下目睹记。其实,这件事是假扮的,不过是一次实验。整个过程都有摄影可资核对。科学家的观察力向来比较精确。但是,在交上的四十篇报告中,错误率之高是惊人的,只有一人的报告错误少于20%,有14篇错误率达20%-40%,有25篇的错误在40%以上,有50%以上的报告掺杂有臆造情节。
(二)信息存储
信息存储是一个信息源形态的变换过程。举个例子,A表示信息源,B表示信息的保存方式,C表示信息的接受者。三者分别包含以下可辨别的状态:
A={a1,a2,…..an},其中a表示杂谈共和国发生的各种绯闻B={b1,b2,…..bn},其中b表示各种记录啊,语音,回议录,历史书籍和文物的可辨状态C={c1,c2,…..cn},表示某一位微信群历史学者头脑中关于杂谈群的各种知识。
这位历史学者如果就在今天的杂谈共和生活,可以通过A-C信息传递过程获得关于杂谈共和国各种事件的知识,建立A和C的对应关系,这个过程叫变换LAC。如果这为历史学者生活在2070年,杂谈共和国A已经不在了,他想通lac过程获得信息显然不可能,但存在着另一种A-B的过程,存在着可辨别的状态B,A消失了,B一直保存下来,如果建立B和C之间的对应关系,这位历史学家也可以获得关于A的知识。但这个过程要分成LAB和LAC两个阶段。而B就是对信息源A的保存,信息的存储就是LAB这样一个变换过程。如果仔细琢磨一下,会发现信息存储有许多特点。
(1)B不是A,可以是跟A完全不同的东西,但B的可辨状态一定要有稳定性,而且保存的比A时间更长。(2)B只反映了A的某一个侧面。或者某一部分属性。A的可辨状态可能还有无穷个变量,处于几乎无穷大的可能性空间,B只是包含几个有限的状态而已。(3)要是的存储下来的信息可以被利用,必须了解对应关系LAB和LBC。平时我们常说的记忆,就是反应这两个过程。
存储信息和存贮物质不一样,存储实物需要保存无穷大的信息;但存储信息,信息量总是有限的,它指储存了实物信息的极小一部分,当然也是对我们的认识来说,有用的那一部分。
|