曾经学习C语言的时候遇到一个统计单词数的问题,尝试去上网搜索相关信息,但是大多记录的答案质量都层次不齐,很难延展思路,正当发愁的时候突然想到《C Primer Plus》上有描述过同样的问题,赶紧打开PDF搜索,书中的讲解马上就使我醍醐灌顶了。
这次经历让我有了一个想法:能不能通过对一个专门问题的搜索从而引出一本较为系统的书,在解决某个问题为方向的同时顺便通过一本书,甚至多本书之间跳转,达到解决问题的同时还能较为系统地掌握一门技术的目的?毕竟很多时候一个专业问题凭网上几篇文章很难得到完整的见解,而书籍相对能集中讨论一类问题,通过章节系统构建相关的知识体系。
Talk to Books 是一个运用「词向量」人工智能技术的搜索引擎。词向量是一种自然语言处理形式,两个词向量的差值对应词的关系,词向量的距离则对应词的相关或相似性。对于选定的一组词,将其向量投影到空间中,词义相近的词向量在向量空间中表现出聚类现象。陈述一件事或提出一个问题,Talk to Books 就会在书中找出能回答你的句子,这种方法不依赖关键词匹配。
Talk to Books 可以按照艺术、小说、科学、历史和宗教等十个门类对搜索的图书进行过滤,目前仅支持英文。看个例子:是什么引发了第一次世界大战?(搜索结果是机器翻译的)
Talk to Books 理解这段自然语言并且给出了十分吻合的答案。当然这也是一个比较理想的实例。
假设一下,如果你在某段时间对人生充满了迷茫,困顿于活着的意义等事关人类终极关怀的问题,那么通常情况下搜索引擎能帮到你的不过是检索到「活着的意义」的网络讨论,比如在知乎上;但若 Talk to Books 足够聪明,就会为你搜索推荐一系列探讨「人活着是为什么」这个命题的图书,你还担心图书质量层次不齐?那把类似豆瓣图书这样的评分抓过来作为一个参考条目岂不完美?
这件事,特别考验技术,更考验资历,也就是你说的版权问题。只有 Google 这样级别的公司,才能有资历去统筹开发出 Google books 这样伟大的产品(Google books 的前身 Google print 就是因为版权问题让两位创始人吃过官司)。何况 Google books 至今还存在许多潜在的版权问题以及没有编辑来纠正 OCR 过程中引入扫描文本的许多错误这样影响阅读体验的系统级问题。
无论是 Google books 还是 Talk to Books ,以我和百度一样短浅的目光来看都是吃力不给力(于 KPI 而言)的。但至少这种永不停止探索的精神真是让人敬佩和鼓舞。