摸鱼 发现创造 Rules & Tips
1. 遵守中国大陆相关法律法规
2. 推崇「哥伦布式」的发现
3. 创造不是复制粘贴,是自我表达

以物理方式存储我们的互联网记忆

查看: 991|回复: 3
2
虫子 发表于 2023-12-30 10:49:47
常见人说「互联网是有记忆的」,即便是一时的被人为抹除,但并不意味着它们的消失。

那么这些记忆,以何种方式存于何处?这不,昨日我偶然发现了一个箱子——中国网络历史信息十五年(2002 ~ 2016),200TB 的数据。

box.jpeg

因为最近大模型的兴起,来拷贝这个箱子里数据的单位变多。不过@北京大学李晓明 表示「真用起来并不简单」。

以体量来看,其存储方式应该和 Internet Archive(互联网档案馆) 的 Wayback Machine(网络时光机) 差不多,只归档网页(Wayback Machine 还会爬取存储一些后端数据)。

正巧,前段时间看到一篇 A Visit to the Physical Internet Archive 的文章,也是第一次见到全球最大规模的互联网记忆,其背后的物理形态。


互联网档案馆的物理档案馆,位于加利福尼亚州里士满。


前两代互联网档案存储器;左边是 20 世纪 90 年代的 StorageTek 9710,右边是第一代 PetaBox (2004)。

我在 2016 就发帖分享过 Internet Archive 20年:记录互联网风云变幻的时光机,如今它的吞吐量又发生了巨大的变化:每天收集大约 10 亿个 URL,一共大约有二万亿个旧网页的 URL。每秒查询大约六七千次。

看吧,无论是长期安静存放于北大的「中国网络历史信息十五年」黑箱,还是每天都在疯狂活动的 Internet Archive 爬虫,亦或其它藏于某个角落的物理存储介质,都在为保留和延续我们的互联网记忆而默默付出着,各位放心了吧?
OldLorice 发表于 2023-12-30 20:19:00
有点浪漫,怎么说~
kkkkk 发表于 2023-12-30 20:29:13
哈哈哈,这下不仅“时光机”被挖透了,固体形态都被你发现了,虫大👍🏻
Dus 发表于 2023-12-31 00:02:22
SURF-
请问,有相关的形式储存我们虫部落的历史吗?

此外,往期的好友等等模块是否可以看看呢?

毕竟除了通过标题、主题等等搜索定向外,还可以通过虫友与朋友直接定位相关文章去向,这或许也是一个不错的路径。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则蛙先知 - AI 玩家社区 🚧

Build with for "make search easier" Copyright © 2013-2024. Powered by Discuz! GMT+8, 2024-5-22 12:46

快速回复 返回顶部 返回列表