搜索 搜索杂谈 Rules & Tips
1. 遵守中国大陆相关法律法规
2. 搜索相关行业技术资讯

以查找马云早年资料为例,聊如何搜索互联网早期的网页信息

查看: 19425|回复: 189
6
虫子 发表于 2024-5-29 15:46:03
前几日有一篇公众号文章爆火,可没过 72 小时便喜提 404 ,标题为《中文互联网正在加速崩塌》。我已经极少看公众号推文,所以这篇文章我也是今天在转载网页发现。

这让我想起同样曾经爆火的一篇公众号文章《中文大约的确已经死了》,同样的 404 命运,同样的标题里提到「中文」,很显然这两篇也都是用中文写的。

中文好像越来越年轻。

每天每时每刻都会很多的新词,比如暴风吸入跺 jiojio 绝绝子,比如一些莫名其妙的首字母缩写,死成了S,钱打成Q,还有脸成了L。

......

直到看到一期《圆桌派》,看到姜文说,我们手里拿的 iPhone 手机,是一个老人做的。很多名牌,也是老人在设计。这个世界上,其实很多年轻人推崇的东西,都是老年人创造、引领的。

我才突然有点明白了。

中文之所以会死,就是因为死在了太年轻,死在了很多成年人越来越低龄,死在了我们越来越接受这种低龄。

但它,本不该这样。

——《中文大约的确已经死了》


感兴趣地可以找一下这两篇文章的备份看下,这里不输出观点,而重点和各位讨论下信息获取——如何搜索互联网早期的网页信息?

注意:这里的「早期」,我们就限定在移动互联网之前吧,看看信息孤岛之前的开放互联网到底还能找到多少有效信息。

仍然以《中文...崩塌》作者的需求为切入点:主题是研究牛人,所以需要经常查找他们的资料。如果我们想要了解那一段时间(1998 ~ 2005)关于马云的经历、报道、人们对他的讨论、他的讲话、公司的发展史等等,如何通过网络搜索获取这些信息?

作者的结论是「能得到的有效的原始信息量,是零」。通过实操,至少我认为,这个结论实在是太过武断和悲观了。

那么,你的结论是?友请各位尝试自己能想到和发挥的搜索方式方法后,再来跟帖回答这个问题

看到有不少跟帖偏离主题,这里补充强调下:这里讨论的是搜索到互联网早期(限定在移动互联网元年 2009 以前吧)发布的信息,而非去年、前年或今年发布在网上的描述早期的内容。

抛砖引玉的参考解答:

游客,如果您要查看本帖隐藏内容请回复
 楼主| 虫子 发表于 2024-6-4 00:30:47
各位,本帖聚焦于开篇引述的公众号文章作者的需求——查找早期互联网上有关马云的信息,也即找当年那些网页。

所以这里是指定了搜索对象,限定了游戏规则。

当然,如果是「查找马云早期的信息」,则会有更多种多样的方式方法,也是有价值的讨论,但这已是题外话了。
剑舞恋红颜 发表于 2024-5-29 17:53:27

回帖奖励 +5 Bit

我想提供一个不太一样的方法。

已知马云是杭师大毕业的,我就去杭师大的网站上去搜索他的名字,果然出来很多关于他的新闻(如图一所示)。

图一

图一


然后在我浏览这些新闻的时候,发现了一本介绍他的书,介绍中是这么写的:“日前,阿里巴巴总裁马云助理陈伟携力作《这才是马云》来我校举行首发仪式。副校长王利琳、浙江人民出版社副主编虞文军出席首发式,校团委、阿里巴巴商学院负责人参加了首发式。
   
陈伟1992年参加“杭州英语俱乐部”夜校时认识马云,之后一直与马云保持联系,2008年4月起担任马云助理。他说,现在市面上关于马云的书有几百本,除了极个别书,其他都是编的,没采访过马云。去年开始,他在阿里巴巴内网上发了些文章,讲马云的故事,受到很多人鼓励,由此萌发了写书的念头。书中讲了很多马云的事,包括马云和张纪中的故事,马云贤内助的故事,马云的太极梦等。”

于是我又去找了《这才是马云》的电子版,大概浏览了一下,发现这本书是以小故事的形式写了马云从92年开始的一些经历,包括开办英语班、去美国、创业等等,我想它对于了解马云的经历还是具有一定参考价值的。
姓C的某人 发表于 2024-5-30 12:42:59

回帖奖励 +5 Bit

发现那么多回答,没人提到互联网档案馆
我认为找早期的互联网内容,这也是一个重要的方面
archive.org | 互联网档案馆
 楼主| 虫子 发表于 2024-6-3 23:59:34
cress2002 发表于 2024-6-3 16:34
傲慢

我给列位理一下原任务:


开篇引述两篇公众号推文,即展开本帖讨论的需求场景——也是原作者的需求痛点——如何搜索互联网早期报道和记录马云的网页,主题是有焦点的,聚焦讨论交流本身就是正文里已经阐明的游戏规则。

注意:这里的「早期」,我们就限定在移动互联网之前吧,看看信息孤岛之前的开放互联网到底还能找到多少有效信息。


后面我做了又再次补充强调了——

这里讨论的是搜索到互联网早期(限定在移动互联网元年 2009 以前吧)发布的信息,而非去年、前年或今年发布在网上的描述早期的内容。


不过也跟我前面可能没特别清晰强调这一点有关,在此对你表示歉意。

所以你说我有很多可以完成查找到马云早年资料的方式方法,列举 1、2、3......但,那自然就属于题外话,我说你的回答有「审题偏差」,这有问题吗?

  • 你的回答分享——> 如何搜索早期报道和记录马云的资料——> 有效 👍
  • 你的回答分享——> 如何搜索报道和记录马云的互联网早期网页(原作者的需求)——> 无效输出


所以看到最后你意味深长地引出「老一代搜索人,有一种傲慢,非要 http,非要 google」这番时代眼泪一般的感慨,我多少有点哭笑不得。

我提醒的是:你可能打了 8 发十环,但却都是别人的靶子。

无论如何,你的分享都是有价值并且值得称赞的。再次为途中的一点表达或理解偏差表示歉意。
moreye 发表于 2024-5-29 17:03:09

回帖奖励 +5 Bit

05年这个时间选的非常好。
那个时间段有那个时间段独有的产物,那个时间的记忆都封存在那个年代。

你可以直接访问Google和百度搜到关于他消息,也可以去网易,新浪,搜狐看到他的新闻,或者Cnbeta等信息网站。

也许你可以在视频里面看到他,可以是YouTube(05),也可以是土豆(05),也可以是后来的优酷(06)。

也许你可以在RSS中找到他的文章,至今依然觉得惋惜的Google Reader(05),或许你可以找找RSS的缓存

也可以去各大论坛或者百度贴吧看到关于他的讨论。当时论坛太多了印象比较深的可能是“番茄花园”。

也可以去推特或者饭否找找关于他的推文。

也可以去月光宝盒里面找找网页缓存。

当然你也可以去众多博客里面看到每个人对于他的观点。
cress2002 发表于 2024-5-29 16:05:14

回帖奖励 +5 Bit

1、电子版书籍(本地)搜索,只找txt或非扫描版的书籍电子版,用anaytxt searcher,统一搜索关键词。如果不知道如何找到这种优质优质电子版书籍,先执行前置子任务“如何搜索到优质电子版书籍”,再回头来执行本任务。
2、电子版书籍(在线)搜索,如微信读书、得到等app。
3、电影/纪录片台词检索网站,搜“马云”,看看有没有优质可信的信息源。
4、超过30分钟的标题带“马云”关键字的长视频(B站、油管等),下载回本地,转文字,筛选优质素材(还附带视频截图福利)。
5、在线报刊搜索,找严肃一点的在线报告、杂志搜索站。
6、论文搜索,中国知网。
7、微信公众号搜索,这是独立于https网站的信息岛,不被收录于google,有必要独立搜索。
8、付费外包,点名要xx关键词xx时间段的优质信息,给钱办事。
 楼主| 虫子 发表于 2024-6-4 12:07:56
李其霖 发表于 2024-6-4 02:26
理论上讲,互联网的记忆可以向前追溯到哪一年?

1991 年 8 月 6 日?参见:WWW,祝你生日快乐!(纪念万维网30岁生日)

Info.cern.ch 是世界上第一个网站及网站服务器,网站在 1991 年 8 月 6 日上线。网站在一台位于 CERN 的 NeXT 计算机上运作。第一个网页地址是:http://info.cern.ch/hypertext/WWW/TheProject.html,它是万维网计划的讯息收集中心。
丶凪 发表于 2024-5-30 15:35:01
很有趣的一个想法,从个人角度第一时间可以想到的是,尝试去那些依旧存活的信息孤岛站点(论坛、博客之类)去获取。至少这些站点的体量并不大,数据留存压力也不大,这样丢失的内容也是极少的。

但这并不能算是解决这个问题的可持续办法,毕竟时间这东西很可怕。

看到站长大大有什么好办法
kowalski 发表于 2024-5-30 13:38:13

回帖奖励 +5 Bit

第一个想到的是,查报纸,期刊,文献。
这一类东西,数据会沉淀,会引用,特别是期刊类。
官网一查,偶吼,官方电子报纸基本开放2-3年的。到不了10年。
这个JOJO日报还行,能查到2008年
reader.jojokanbao.cn
https://cn.govopendata.com/
这类内容有个问题,没有索引没法搜索。
于是就在网上搜索,:“2000-2005年间报道过马云的报纸”
https://baijiahao.baidu.com/s?id ... r=spider&for=pc
然后找了下,全国报刊索引,索引词马云,结果输出
https://www.cnbksy.com/search/advance
起始点 发表于 2024-5-30 12:06:46

回帖奖励 +5 Bit

截止到此刻,限制时间在 2009 年之前,用谷歌搜索依然能找到几十条相关信息,而且都是发布时间在 2009 年之前的,另外通过点击这些链接,我发现很多受经济环境影响极小的网站基本都有较为早期的内容,比如中央和地方ZF官网丶知名学校官网丶党央媒丶油管等

发布时间为 2006 年的内容

发布时间为 2006 年的内容
19491001 发表于 2024-5-29 16:05:23
我来学习了
670461551 发表于 2024-5-29 16:27:28

回帖奖励 +5 Bit

我也来学习了
 楼主| 虫子 发表于 2024-5-29 16:36:53
cress2002 发表于 2024-5-29 16:05
1、电子版书籍(本地)搜索,只找txt或非扫描版的书籍电子版,用anaytxt searcher,统一搜索关键词。如果不 ...

你的回答里存在严重的审题偏差,比如微信公众号搜索,2012 上线的产品,本身已经是移动互联网时代的产物了,怎么凭空能搜到限定早期的内容呢?再直白一点:即要找的是信息发布时间在早期的相关内容。还有知网论文搜索等等,有些凑数的想当然了。还是得实操来验证,而非天马行空地列举一些方法途径,而即便列举,也要去贴合问题的实质性解决。
yukiQAQ 发表于 2024-5-29 16:37:28
我来学习帖子
碎碎念 发表于 2024-5-29 16:47:15

回帖奖励 +5 Bit

我来学习来了
若把你比作 发表于 2024-5-29 16:56:17
学习学习
RenZhaomu 发表于 2024-5-29 17:15:28
北大北京大学网络实验室开发建设了“中国 Web 信息博物馆”,是 973 和 985 项目,成立时间是2002年1月18日。但是现在我没用访问成功。相关介绍:Internet Archive旗下的Wayback Machine,免费提供全球网站历史信息查询服务,和张自然以前介绍的中国Web信息博物馆– 中文网站历史信息查询中国提供的服务一样,Wayback Machine的历史更悠久提供的内容也更丰富,你可以在Wayback Machine上查询到从1996年至今的几乎所有全球网站的历史网页记录,无论是看看自己喜欢网站以前的样子还是查询某个域名以前做过什么网站,都没问题。我搜到的一个网址链接是:http://web.archive.org/.时间原因,目前探索到此
谁为我暖床 发表于 2024-5-29 17:16:39

回帖奖励 +5 Bit

上次在别的论坛看到这个话题,来学习一下               
老詹四万分 发表于 2024-5-29 17:19:31

回帖奖励 +5 Bit

我当时认同网文观点,现在看看楼主的大法,能否找到我在2008年到2009年之间的新闻。
sens1 发表于 2024-5-29 17:35:45

回帖奖励 +5 Bit

学习
Q9527 发表于 2024-5-29 17:44:03
在油管搜过往年的报道、采访视频
GXX 发表于 2024-5-29 17:55:34

回帖奖励 +5 Bit

学习学习
顺溜 发表于 2024-5-29 19:02:04

回帖奖励 +5 Bit

浏览器设置时间后便可以找到相关报道
玄象天玉 发表于 2024-5-29 19:19:26

回帖奖励 +5 Bit

你难道看屎洞?
Antita 发表于 2024-5-29 20:31:43

回帖奖励 +5 Bit

来学习
瑞瑞芽 发表于 2024-5-29 21:29:30

回帖奖励 +5 Bit

来学习了
 楼主| 虫子 发表于 2024-5-29 21:40:29
剑舞恋红颜 发表于 2024-5-29 17:53
我想提供一个不太一样的方法。

已知马云是杭师大毕业的,我就去杭师大的网站上去搜索他的名字,果然出来很 ...

很不错的发散思维。不过还是有必要强调下,本帖讨论的是搜索早期(移动互联网之前)的信息,对应的是网页内容的发布时间,而非网页内容谈论的时间。

所以杭师大官网上 2015 年的网页,虽然内容涉及到早期马云的经历,也可以顺藤摸瓜到有效的资料,但已偏离讨论的主题。
Dxueyang 发表于 2024-5-29 21:44:51

回帖奖励 +5 Bit

学习学习
(想到的都是利用搜索引擎直接搜马云,谷歌B站百度等;再就是搜索“有什么网站博物馆之类的,然后在那上面检索马云)
zdb1115 发表于 2024-5-29 22:08:00
学习一下
keith58 发表于 2024-5-29 23:10:46
学习~
不是主角 发表于 2024-5-29 23:22:54

回帖奖励 +5 Bit

来学习咯
好好不吃 发表于 2024-5-29 23:41:54
能想到的,只有通过搜索马云及相应年份的关键字,找到马云在该年度的一些公开活动的讲话或者文章,再通过对应文章的杂志、报刊资料库,会议视频,会议报道等内容找到马云的该年度的具体信息。以百度搜索“马云 2005”为例可以找到马云参加经济年度人物演讲、马云参加达沃斯会议、马云接受财富中文网采访报道等信息 image.png image.png image.png 。之后根据相关信息,可以在对应的论坛、杂志历史资料库中(如果有的话),通过马云关键字搜索相关信息。依次延伸,也可以通过查找电子商务、经济、互联网等相关的马云可能会参与讲话或采访的权威杂志和会议,再通过相关关键字进行搜索。
Dus 发表于 2024-5-30 05:11:23
surf-
关于中文,或许可以借用一位大先生传达,一位演员的演述,“日,太阳……

为了更好向大家讲述历史,某又在黑板上绘出一幅南宋地图,因为在某看来,地理既是历史,而历史既是文字,倘若用简短的中国文字来记录个人平生,那么会是“陆秀夫生于盐城,葬于崖山; 十万江阴父老,生于江阴,葬于江阴”。

中文,是世上最美文字; 它充满了温度,代表了象形的含义,有着深奥的内涵,最重要的是,是这个世界上延绵了三千多年而从未断过的文字。
也许你们会问,这重要吗?这当然重要

如果你读不懂400年前至一两百年前的文字,你就不会因为读红楼梦而被老师罚站;   你喜欢的西游记,就不用读了,因为你读不懂;
如果你读不懂1000多年前的文字,滕王阁序,中文系的同学可以不用再背了,因为初唐的气象万千、盛唐的波澜壮阔,你们是懂不了的;
在说到2000年前的文字,2000年前的文字如果不懂,历史系的学生,史记,可以一把火烧掉,为什么?因为那些秦时明月,荆轲刺秦,背水一战,破釜沉舟,以及众口相传的卧薪尝胆……你们铁定懂不了啊!这样,是一件多么遗憾的事情。

我们脚下的这片土地,李白来过,霍去病所去之地,我们也可以到达。为什么?因为我们的文字,我们的文化从没有间断过。
所以我们可以读书,我们可以看到大漠孤烟、江南春雨,我们可以听到文人风骨、英雄负剑; 今天还可以懂得什么是衣冠不绝?什么是华夏不灭。

……唤起爱国心,尤其看到他用甲骨文写下中国二字,简述自己,生于何地,葬于何处,永不惧死。”
百万蝙蝠 发表于 2024-5-30 08:24:53

回帖奖励 +5 Bit

学习下
hhhh2043 发表于 2024-5-30 08:27:34

回帖奖励 +5 Bit

像那句,网络是没有记忆的。
网络信息也只是储存在某一个点上的一段数据。如果没有大量转发并截图保存,大概率的结局是消失。
人的记忆会模糊甚至遗忘,网络更多的是虚拟及另世界。
你这个话题,可以延伸到一个另个话题,有点敏感就不说了。
像马bb这样的庞然大物,在他巅峰时会不会有人主动的配合去调整他的过去信息?我想肯定是有的,所以,现在所搜索到的信息,可能只是片段。
唯有他的辉煌依旧传唱至今。
如同,胜者为王,历史是胜利者撰写的。
云定海 发表于 2024-5-30 08:29:41

回帖奖励 +5 Bit

看看参考答案
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则社区广场

Build with for "make search easier" Copyright © 2013-2024. Powered by Discuz! GMT+8, 2025-1-23 01:08

快速回复 返回顶部 返回列表