搜索 搜索杂谈 Rules & Tips
1. 遵守中国大陆相关法律法规
2. 搜索相关行业技术资讯

以查找马云早年资料为例,聊如何搜索互联网早期的网页信息

查看: 19435|回复: 189
6
丶凪 发表于 2024-5-30 15:35:01
很有趣的一个想法,从个人角度第一时间可以想到的是,尝试去那些依旧存活的信息孤岛站点(论坛、博客之类)去获取。至少这些站点的体量并不大,数据留存压力也不大,这样丢失的内容也是极少的。

但这并不能算是解决这个问题的可持续办法,毕竟时间这东西很可怕。

看到站长大大有什么好办法
忆梦亦追梦 发表于 2024-5-30 15:39:29

回帖奖励 +5 Bit

你没有搞清楚一个事情,谷歌成立于1998年,百度成立于2000年,知乎成立于2010年,如果你用百度去搜索2000年前的事,别人成的没成立,搜个寂寞。

可想而知这不是互联网的问题。

如果你想知道马云的事,可以去看马云自己的自传或者报道,或者他人总结的
pansharemm 发表于 2024-5-30 16:01:15

回帖奖励 +5 Bit

archive.org
林梦昔朝 发表于 2024-5-30 16:16:26

回帖奖励 +5 Bit

学习一下
anshuo 发表于 2024-5-30 16:39:41
学习学习
不想生病 发表于 2024-5-30 17:42:49

回帖奖励 +5 Bit

学习下
文火慢燉 发表于 2024-5-30 18:26:22

回帖奖励 +5 Bit

要不要试试英文关键词
rapcn 发表于 2024-5-30 18:27:30

回帖奖励 +5 Bit

1998年,中文互联网还处在初级发展阶段,制作网页的工具还是网页三剑客。资料遗失的最大原因是那时候服务器很贵,带宽很贵,托管费用很贵。服务器硬盘里面很多被管理员以个人主观意见认为不重要的资料就直接删除。
幸福点点 发表于 2024-5-30 19:07:09

回帖奖励 +5 Bit

成功人士的成功方法不可复制,只当娱乐消遣
Russel 发表于 2024-5-30 22:31:44

回帖奖励 +5 Bit

这种专题性学习值得提倡
Superstar 发表于 2024-5-30 23:41:29
哈哈,比较好奇虫子的信息源获取途径,极少看公众号,是平时都用rss吗?
kit 发表于 2024-5-31 00:38:31
我很好奇,如果真如文中所述,那么现在国内国外的各种GPT语言模型,是如何被投喂训练的?都是使用大公司自己搜索引擎的历史数据?记得有一个世界性的网页快照记录网站的,好像是国外的,网址不记得了,不知道现在是否还存在
李文明 发表于 2024-5-31 07:47:38

回帖奖励 +5 Bit

自然想到的就是搜索时限制时间,比带上关键词要好的多
shuishou 发表于 2024-5-31 08:12:11

回帖奖励 +5 Bit

回复学习一下
jileniaoysy 发表于 2024-5-31 08:44:55

回帖奖励 +5 Bit

其实,还是可以找到很多的信息。
idiom5love 发表于 2024-5-31 09:11:51
观摩
 楼主| 虫子 发表于 2024-5-31 09:16:02
忆梦亦追梦 发表于 2024-5-30 15:39
你没有搞清楚一个事情,谷歌成立于1998年,百度成立于2000年,知乎成立于2010年,如果你用百度去搜索2000年 ...

注意审题啊朋友,你说的这些跟这里讨论的前置条件和需求没一个能对上的。北京话这叫我说前门楼子,你说胯骨轴子。
 楼主| 虫子 发表于 2024-5-31 09:19:06
星辰无生 发表于 2024-5-30 11:20
前来学习,想着能不能发起一个自发的、公益的中文互联网博物馆(我觉得可能有这个项目了),类似于区块链的 ...

核心问题在于投入产出比,即便公益或学术性质的,如互联网档案馆,都得依靠全世界热心网友或机构的捐款。
 楼主| 虫子 发表于 2024-5-31 09:23:46
姓C的某人 发表于 2024-5-30 12:42
发现那么多回答,没人提到互联网档案馆
我认为找早期的互联网内容,这也是一个重要的方面
archive.org | 互 ...

是的,互联网档案馆也值得尝试,不过在此问题的解决中会发现,对于中国早期门户网站的网页存档,有很多是绿标,已无法访问。
zhengli 发表于 2024-5-31 09:25:04

回帖奖励 +5 Bit

学习一下,想找上世纪的文学作品,网络上能找到吗?
 楼主| 虫子 发表于 2024-5-31 09:35:33
kit 发表于 2024-5-31 00:38
我很好奇,如果真如文中所述,那么现在国内国外的各种GPT语言模型,是如何被投喂训练的?都是使用大公司自 ...

大模型的数据来源多样,比如 Reddit、知乎...这些内容网站的 API,所以数据也跟着升值了。你说的那个世界性网页快照记录网站是:Internet Archive 20 年:记录互联网风云变幻的时光机,社区有几次搜索练习题目都涉及到过。还有整活儿项目:Internet Archive “陈年表情包”搜索引擎上线 满满的怀旧感,感兴趣可以多去了解下。
stonewang 发表于 2024-5-31 09:56:52

回帖奖励 +5 Bit

1、使用Google、bing,限定日期搜索
Google结果较好,能找到较多以前的网页
image.png

2、中国知网的期刊、报纸检索
image.png
image.png

3、龙源期刊
image.png
image.png
SimonS 发表于 2024-5-31 10:43:20
1
halo,L桑 发表于 2024-5-31 10:55:03
我来学习
zzf955920 发表于 2024-5-31 10:59:00

回帖奖励 +5 Bit

每天来学习点,每天进步点
lierbai 发表于 2024-5-31 11:07:52

回帖奖励 +5 Bit


我也来学习了
jhkeith 发表于 2024-5-31 11:21:02
只知道限制时间搜索,学习下
不休的伯特 发表于 2024-5-31 12:03:03

回帖奖励 +5 Bit

前排围观一下(好久没来虫部落了)
bopk 发表于 2024-5-31 12:10:59

回帖奖励 +5 Bit

学习了,感谢
halo,L桑 发表于 2024-5-31 12:23:12

回帖奖励 +5 Bit

如何保留历史的痕迹和供后人搜索固然重要,提点小想法我们一起思考(手动狗头.jpg)
1、我们应该感激新浪、UC这些大厂能做好数据的维护留存,给机会后人看到互联网的记忆,可现留存下来的图文资料,是否客观真实地表述了人物情况供后人考证使用。
2、很多人吐槽国家层面对信息宣传的管控,存在一刀切,存在有矫枉过正,但换一个角度来说,身边不少朋友谈论说算立场比较坚定的爱国主义者,在外网查资料,国内一些论坛学习检索,网络信息搜索时也常常被一些无脑言论,不正当宣传言行举止冲击到。自身尚且如此,何况涉事不深,立场不坚定的朋友们,非常容易被带偏,误入歧途,成为不法分子的棋子。表达自由的想法固然应该被支持,国家及社会过分限制发言会有不妥,我们人口基数过大的基本盘如何保证合理运用,换80,90,以后的00当上核心制定规则时,我们应该会怎么做?
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则社区广场

Build with for "make search easier" Copyright © 2013-2024. Powered by Discuz! GMT+8, 2025-1-23 01:23

快速回复 返回顶部 返回列表