18科技

NEWS新闻

最近正在折腾...
Recently is to do ...

10个有趣的事实(和一个打字错误)从原来的谷歌论

UPTATED:2019/07/04 | 分类:新闻
昨天,当我兴致勃勃地阅读《大型超文本Web搜索引擎的剖析》(The Anatomy of a large hypertext Web Search Engine)时,我偶然发现了一些有趣的事实。
 
昨天我们从报纸上读到了一些技术性更强的文章,但我们认为这些文章同样值得一读——或者至少更令人愉快。星期五。
 
1. “哇,你看了我网站上的很多页面。你觉得怎么样?——人们第一次遇到爬行动物
他们注意到,他们几乎每天都会收到关注版权问题的人发来的电子邮件,或者在浏览了这个网站之后询问他们是否喜欢它。对于许多有web页面的人来说,这是他们看到的最早的爬行器之一。
 
事实证明,运行一个连接50多万台服务器、生成数千万个日志条目的爬虫程序,可以生成相当数量的电子邮件和电话。因为网上的人很多,总有人不知道爬虫是什么,因为这是他们第一次看到。几乎每天,我们都会收到这样一封邮件:“哇,你看了我网站上的很多页面。你觉得怎么样?也有一些人不知道机器人排除协议,他们认为他们的页面应该被保护起来,不被索引,比如,“这个页面有版权,不应该被索引。”
 
更多无辜的倍。
 
2. 到2000年,预计将有10亿个web文档
“可以预见,到2000年,万维网的综合索引将包含超过10亿份文件……我们的系统的目标是解决许多问题,包括质量和可伸缩性,这些问题都是通过将搜索引擎技术扩展到如此惊人的数量而引入的。”
 
据报道,2018年,互联网上有130万亿份文件——这确实是一个惊人的数字。果不其然,他们的搜索规模已经扩大到可以满足这一需求。
 
3.谷歌占用了55 GB的存储空间
“搜索引擎使用的所有数据的总和需要相当大的存储空间,大约55 GB。”
 
现在,谷歌是20亿行代码。正如他们的一位工程经理在2016年指出的,存储库包含86TB的数据。
 
4. “人们仍然只愿意看到最初的几十个结果。”
请注意:“十”。
 
他们写了对搜索更精确的需求。还记得人们经常点击第一页的日子吗?
 
5. 占。com域名的比例:从1.5到60,到现在的46.5
他们指出,互联网已经变得多么“商业化”,使得搜索引擎技术“基本上成为一种巫术,并以广告为导向”。
 
“随着时间的推移,互联网也变得越来越商业化。1993年,1.5%的web服务器位于。com域名上。这个数字在1997年增长到60%以上。”
 
据统计,截止到2018年5月,.com域名的数量已经下降到46.5%。
 
“有了谷歌,”他们写道,“我们有一个强大的目标,推动更多的发展和理解进入学术领域。”
 
6. “流行音乐有两种类型:花式流行音乐和普通流行音乐。”
在详细介绍了优化紧凑编码的一些技术细节之后,他们发现他们已经将复杂的紧凑编码准备工作简单地(令人喜爱地)分为花哨的和简单的两类。
 
7. 已经保护用户体验在预期搜索
从一开始,布林和佩奇似乎就在争取让用户不必为了获取所需信息而过多地指定查询内容。他们写道:
 
一些人认为,在网络上,用户应该更准确地指定他们想要什么,并在查询中添加更多的单词。我们强烈反对这个立场。如果用户发出像“Bill Clinton”这样的查询,他们应该会得到合理的结果,因为关于这个主题有大量高质量的信息可用。考虑到这样的例子,我们认为标准的信息检索工作需要扩展,以有效地处理web。”
 
有趣的是,他们从一开始就清楚地意识到这一点。在上周的搜索峰会上,谷歌员工胡安•菲利佩•林孔(Juan Felipe Rincon)表示:“搜索的未来不是搜索,因为搜索意味着不确定性。相反,它将是关于你如何在别人知道他们不知道什么之前填充一些东西。”
 
8. 有个打字错误
在3.2节的第二段中,他们写道:“将发布任何内容的灵活性与搜索引擎对路由流量的巨大影响结合起来,蓄意操纵搜索引擎以获取利润的公司将成为一个严重的问题。”
 
你接住了吗?动词应该是“蓄意操纵搜索引擎的公司变成了”或