早期互联网历史存档内容为何如此之少?

  • 斯蒂芬·道林
  • (Stephen Dowling)
信息

图像来源, Getty Images

2005年,还是学生的亚历克斯·图(Alex Tew)想出了一个赚100万美元的点子。

时年20岁的他正在天马行空地想怎么才能支付一个商科学位迫在眉睫的3年学费。亚历克斯·图担心自己的透支金额会迅速增加。于是他在便笺簿上潦草地写道:“如何成为百万富翁。”

20分钟后,他找到了自认为的答案。

亚历克斯·图创建了一个名为“百万美元主页”(Million Dollar Homepage)的网站。该网站的模式极其简单:上面是100万像素的广告位,以10×10像素为基本单位销售,每个像素售价1美元。你一旦购买,它们就永远属于你。售出第100万个像素时,亚历克斯·图就会成为百万富翁。至少,计划是这样的。

在亚历克斯·图花了50欧元注册域名并设定主页后,百万美元主页网站于2005年8月26日开通。广告商购买页面上的像素,并提供链接、小图案和少量文字信息,鼠标停留在广告商的图案上时文字就会显示,点击后就可进入链接的网站。

由于口耳相传和媒体关注度不断提高,刚一个月多一点,亚历克斯·图的主页广告销售就超过25万美元(14万英镑)。2006年1月,最后1000个像素在拍卖会上以38100美元(21500英镑)的价格售出。亚历克斯·图真的赚了100万美元。

创建近15年后,这个百万美元主页还在网上。很多客户,包括英国《泰晤士报》(The Times)、旅游服务网站Cheapflights.com、在线门户网站雅虎(Yahoo!)和双人摇滚组合Tenacious D等在完成了一次性付费后已经打了15年的广告。该网站每天仍有几千名访客,这可能是一笔非常划算的投资。

百万美元主页

图像来源, Million Dollar Homepage

图像加注文字, 现在,百万美元主页上的很多链接指向的网站都已不复存在(Credit: Million Dollar Homepage)

亚历克斯·图真的成了百万富翁。他现在运营着冥想和正念应用程式Calm。但他创建的那个主页也变成了另一种东西:一个记录早期互联网时代的活的博物馆。15年看上去可能并不长,但就互联网而言,就像是一个地质年代。在百万像素主页上,现在大约40%的链接指向的网站已经不复存在,其他链接中很多指向全新的域名,因為原来的URL已卖给了新的所有者。

百万美元主页表明,互联网早期的衰变几乎是无迹可寻。在现实世界中,比如,一家地方报纸的倒闭往往会被广泛报道。但在线网站的消亡通常都悄无声息,只有当点击的链接指向一个空白页面时,你才知道它们已经不存在了。

大约10年前,我花了两年的功夫维持一个摇滚音乐博客和现在属于美国电话公司Verizon旗下的大型互联网先驱美国在线(AOL)的音乐频道。我编辑或撰写了数百篇现场评论、音乐新闻报道、音乐人采访和清单体文章。Facebook和Twitter已经吸引了海量用户,智能手机连接了我们与工作和家庭之间的网络,上网成了一项不分昼夜的活动。

你完全有理由认为,如果需要证明花在那上面的时间,我只要用谷歌(Google)搜索一下就可以了。但你错了。2013年4月,美国在线突然关闭旗下所有音乐网站,以及数十位编辑和数百位撰稿人共同努力多年的成果。除了互联网档案馆(Internet Archive)保存的少量文章外,其余所剩无几。互联网档案馆是一个总部位于旧金山的非盈利基金会,由计算机工程师布鲁斯特·卡尔(Brewster Kahle)于上世纪90年代末创办。

全球有一系列机构试图在人类互联网出现头十年最后的痕迹完全消失之前挽救出其中的一部分,互联网档案馆是其中最有名的。

南安普敦大学网络科学研究所(Web Science Institute at the University of Southampton)常务所长达姆·温迪·霍尔(Dame Wendy Hall)明白无误地肯定互联网档案馆的贡献。她说,互联网早期的内容“如果不是这个档案馆,就一点不剩了。如果布鲁斯特·卡尔不创办互联网档案并开始保存,没有等任何人的许可,我们现在什么也没有。”

美国在线

图像来源, Getty Images

图像加注文字, 2013年,美国在线关闭旗下多个音乐网站,删除了多年间来自世界各地的音乐报道(Credit: Getty Images)

达姆·温迪说,档案馆和国家图书馆有保存书籍、报纸和期刊的经验,因为印刷品已经存在很长时间了。但互联网的诞生,以及它成为大众交流和表达方式的速度之快,可能让档案馆和国家图书馆出乎意外。从那之后,在很多领域,对互联网进行存档的尝试一直在尽力追赶。她说:“出版的所有地方报纸,大英图书馆(British Library)都不得不保存一份。”随着报纸从纸媒走向网络,存档工作的形式也发生了变化。这些网站和之前的报纸一样,是重要的信息资源吗?

报纸存档也非常重要。报纸停刊或与其他刊物合并时,报纸也容易丢失。她说:“大部分报纸,我想都会有某种分类或存档。但如果不妥善存档保管,这些信息也可能丢失。”

试图对互联网进行存档有一个主要问题是,它从来都不是静止不动的。每一分每一秒,网上的照片、博客文章、视频、新闻报道和评论都会增加。尽管数字存储的价格已经大幅下降,但对所有这些内容存档依然要花经费。“谁来出钱?”达姆·温迪问。“我们产生的东西比过去多得太多了。”

在英国,数字保存的工作部分落到了大英图书馆肩上。该图书馆有一个英国网络档案馆(UK Web Archive),从2004年开始获准收集网站信息。该档案馆的项目经理韦伯(Jason Webber)说,这个问题比大多数人以为的要大得多。

互联网

图像来源, Getty Images

图像加注文字, 互联网初期,也就是留言板和网吧时代保留下来的内容非常少(Credit: Getty Images)

他说:“不仅是早期的内容,互联网的大部分内容都没有保存。”

“互联网档案馆是从1996年开始保存各网站的网页。那时距离第一批网页创建已经过去了5年。那个曾经从网络复制过来的时代已荡然无存。”就连1991年创建的全球首个网页也已经不复存在。人们在万维网联盟(World Wide Web Consortium)上看到的页面是一年后制作的副本。

在互联网诞生后的最初5年里,很多时候在英国发布的很多内容都以.ac.uk的指定代码域名结尾,表示是学者撰写的学术文章。直到1996年,随着商业网站的数量开始超过学术网站数,互联网上才开始出现更多的综合性网站。

大英图书馆每年都会进行一次“网站领域系统搜寻”,以保存在英国发表的任何信息。“我们努力把所有内容都存下来,可我们一年只能做一次。但大量网站的储存量上限被设置为500MB,这可以涵盖很多小网站,但是你只能存几个视频,很快就会达到上限。”然而,像BBC新闻这样的新闻网站确实会获得较多次数的系统搜寻。韦伯说,大英图书馆尝试尽可能全面地保存英国脱欧、2012年伦敦奥运会和一战100周年纪念等事件的信息。

韦伯说:“我觉得我们对一切都会失去的认知非常低。数字世界短暂无常,我们看着手机,其实还没有思考,手机上的东西就变了。不过现在人们越来越意识到我们可能正在失去很多东西。”

但韦伯说,像大英图书馆这样的机构只有权收集可公开浏览的内容,数量更大的重要历史和和文化数据存储在人们自己的的档案中,比如硬盘。但我们很少有人把这些留给后代。

“大英图书馆保存了大量个人之间的信件。有政客之间的往来信件,也有情书,这些东西对一些人来说真的很重要。”

报纸

图像来源, Getty Images

图像加注文字, 档案馆知道保存报纸的重要性,但对网络内容的出现却反应迟钝(Credit: Getty Images)

我们以为自己发表在社交网络上的内容会永远存在,只需要敲一下键盘就能看到。但最近,具有开创性的社交网站MySpace(曾经在美国最受欢迎的网站)最近丢失了大约12年的音乐和照片。这表明,即使是存储在最大网站上的内容,可能也不安全。

即便是搜索巨头谷歌的服务也不能幸免。谷歌试图与Facebook抗衡的社交网络Google+于4月2日关闭。但是否所有用户都备份了发表在Google+上的照片和记忆?

韦伯说:“把照片放在Facebook上并不是存档,因为有一天Facebook也会不复存在。”如果对网络的暂时性有任何怀疑,花几分钟浏览一下百万美元主页。它证明了我们的网络历史会消失得有多快。

数据丢失还有另外一面。达姆·温迪指出,不把新闻网站上的报道存档可能会造成片面的历史观,比如,新政府选择不保存有关自己的负面报道或档案。

伦敦大学(University of London)数字人文学科教授温特斯(Jane Winters)说:“一旦政府换届或半官方机构重组,网站就会被关闭。或者看看竞选网站,其本质上就是临时性的。”

有时候,网站消失是伴随社会的大变革发生的,比如国家本身的诞生和灭亡。她说:“南斯拉夫(Yugoslavia)就是这样。yu曾是代表南斯拉夫的域名,但南斯拉夫解体后,这种情况随之结束。一位研究人员正在尝试恢复南斯拉夫解体前的内容。”

“政治常常与技术紧密相连。”

也许有一线希望。“我是研究历史的,我们一向要克服历史记录中的空白,这些空白有些我们知道,有些我们根本不知道。”

达姆·温迪·霍尔认为与物质世界也有相似之处。60年代末,15岁的她作为观众参与了BBC的音乐节目《流行之巅》(Top of the Pops)的录制。

节目在圣诞节那天播出。“电视开着,我母亲说‘你在那儿!’但我错过了。后来我去了BBC,想得到一份拷贝。他们把它录下来了。可我从来没看到过。”

请访问 BBC Future 阅读 英文原文