摸鱼 发现创造 Rules & Tips
1. 遵守中国大陆相关法律法规
2. 推崇「哥伦布式」的发现
3. 创造不是复制粘贴,是自我表达

基于语用学的 Query 思考

查看: 2921|回复: 2
3
羚芈 发表于 2020-8-12 20:24:32
上学期学了语言学,暑假有在看信息素养课,突然发现信息检索和语言学有一定的关系,均是基于一定语法的交流,再例如搜索引擎对已收集的数据进行匹配,和关联理论很相似,均是寻求最佳关联性。于是再加整理,有了这一篇文章。由于语言学学得不是很精(线上教学+只有一学期),如有专业人士发现不足,还望不吝斫正。另外系第一次发帖,如有不妥多多包涵。

语用学中有一个会话含义理论,即言语交际的成功是谈话双方共同努力的结果,交际的成功在于交谈双方要遵守某些规则,达成一定的默契,使会话顺利进行, 这个原则叫“合作原则”(Cooperative Principle)。它有四条准则:

  • 数量准则(Quantity)
1. 使你的话语如(交谈的当前目的)所要求的那样信息充分。
2. 不要使你的话语比要求的信息更充分。
  • 质量准则(Quality)
设法使你的话语真实。
1. 不要讲明知是虚假的话。
2. 不要说没证据的话。
  • 关系准则(Relation)
所谈内容要密切相关。
  • 方式准则(Manner)
要清晰。
1. 避免含糊不清。
2. 避免歧义。
3. 要简练(避免冗长)。
4. 要有序。

互联网搜索大多是人机交互的过程,以上原则和特点也有一定程度上的体现。首先它的过程大致如下图所示。

3.png

基本的输入步骤中我们大多先挑选较为简单但有区别性的词,其简练、避免含混不清便体现了方式准则。当然有时不用输入所有的关键词便能检索到满意的信息,但优化的步骤也是交互过程中不可或缺的,也进一步反应了合作原则。例如,想看张大千的《西园雅集图》,直接搜索“西园雅集图”并不能得到满意结果,后加上“张大千”,成功✔。此与数量准则中要求的 “信息充分”对应。减少没有语义、没有关联的词——数量准则第二次则,关系准则。搜索外文,使用英文词搜索——关系准则。

一个小实例:昨天搜索李商隐《杜工部蜀中离席》中“美酒成都堪送老,当垆仍是卓文君。”的英译,中文网站基本无果,转向 Google。考虑到关键词的译法大概一致,于是将其用英文表示,进而搜索。

4.png

其中第二条相关性较大,打开后也获得满意结果。

另外在输入Query的步骤中也体现了会话含义的可推导性。例如搜索“Du Fu”也会推荐“Tu Fu”的结果(音译不同),还有一些拼写错误,搜索引擎也会帮助纠正。这些都是智能推导的结果。在优化的步骤中一定程度上体现了会话含义的可取消性,即对 Query 的改动,改变原有意思。其他的特点,如“不可分离性”与“非常规性”,因为涉及固定的会话场景,暂未发现在搜索过程中有所体现。

Ps:上面没有谈及质量准则,一方面是由于它是一种相对隐形的存在,在其他准则中也存在它的影子(也正是由于准则之间有相互重叠之处,之后的理论对合作原则进行了简化),例如说了假话也就违背了数量准则的第二次则(不要使说的话比要求的信息更充分),以及关系准则;另一方面,它更涉及一种高语境的实际交流,例如对于隐喻 “他是铁打的。”会对搜索引擎的匹配造成一些困扰,但对人与人的交流不会有太大影响。(不知道此处举例是否恰当,欢迎指正。)

由于对未知事物缺少认知,Query 总是很难一次就恰到好处,也是需要不断优化,就像与人对话一样,通过一次次的学习、实践获得进步。

————————————————————————————————————————
2021/01/21 更新
本学期选修一门应用语言学,学期论文是在上面的基础上完成的,有了更多的认识,在此更新并纠正一些有失准确的观点。

1. 搜索结果往往更多地遵循数量准则第一次则(informative),但基本算是违背了数量准则(结果比要求的更充分),而较少地遵循质量准则。因为结果往往有上万条,且根据相关性排列,后面的内容更加无关且失实的信息。此外某些搜索引擎会在结果中插入广告,也违反了质量准则。
启示:用一定的插件屏蔽掉广告,减少这类没有质量信息的干扰,对于搜索得到的信息也要有自己的辨别和判断。

2. 关于可推导性和搜索引擎的“纠正”。关键词的替换通常有两种。一种是虚词(冠词、介词等)的替换,一种是实词语义的替换,这种语义关系会包括部分和整体,上位词-下位词、(同义词)-反义词、原因-结果等(part-whole,hypernym-hyponym, antonym, and cause and entailment)(Lei Wang: Semantic Computing and Language Knowledge Bases)。如我搜索“applied linguistics in language education” ,结果中“in” 有被替换成" and" 或者“for”;“education”被替换成“teaching”或者“learning”。
启示:query 的优化可以参考这两种替换。

想来之前写这篇帖子也是想,或许遵循合作原则可以帮助优化关键词的搜索,现在看来也不能完全遵循,从它的违背现象也可以得到一定的启示。毕竟这是一个人机对话的过程,和人与人之间的交流仍有一定差距。

扩展阅读搜索者:应遵循七条搜索准则
Dus 发表于 2020-8-13 08:41:06
SURF-
基于语言逻辑的query,可参看:站内平台贴中 提及的剑桥大学 language and logistics的课本、练习册 或视频,有相关 逻辑、语言学及信息检索等等情况。
 楼主| 羚芈 发表于 2020-8-13 09:49:19
Dus 发表于 2020-8-13 08:41
SURF-
基于语言逻辑的query,可用站内 剑桥大学内 language and logistics


搜索了一下相关文字,不是很懂,愿闻其详。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则蛙先知 - AI 玩家社区 🚧

Build with for "make search easier" Copyright © 2013-2024. Powered by Discuz! GMT+8, 2024-4-20 22:32

快速回复 返回顶部 返回列表