魔天记小说网

手机浏览器扫描二维码访问

第200章 0201 大数据时代(第2页)

自己必须拿出完全体来对付这帮同样有梦想的年轻人!

宁子默自信地笑笑,乘着抿一口咖啡的时间在脑子里将峰语搜索的关键技术汇集成册。

把杯子从嘴边拿开的时候,宁子默脑子里有关峰语搜索关键技术的封印,

已然打开!

“说到搜索,人们往往会简单地认为搜索只是抓取爬虫从网络上抓取的结果。但实际上,搜索并没有人们想象的那么简单。”

宁子默将杯子轻轻地放在桌上,笑着扫了三人一眼,细细地解释到:

“我们谈到大数据搜索,其核心一定是体量极大的数据量。这种体量的数据存储、索引和检索,已经不单单是数据库结构能去实现并解决的。

大数据量的数据存储和搜索一定要有对应的文件存储检索系统,它必定是一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。

我们【bing】除了在搜索和爬虫上用心外,最核心的部分还是背后那套围绕在bfs(bingfilesystem)文件系统的核心技术体。这套系统的设计目标,与许多传统的分布式文件系统有很多相同之处。比如,性能、可伸缩性、可靠性以及可用性。

但bfs的还是以应用负载情况和技术环境的分析为基础着重考虑,不管现在还是将来,bfs和早期的分布式文件系统的设想都有明显的不同。所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。

首先,组件失效被认为是常态而不是意外。bfs需要管理成百上千存储机器,同时被相当数量的用户终端机访问。bfs组件的数量和质量导致在事实上,任何给定时间内都有可能发生某些组件无法工作,某些组件无法从它们目前的失效状态中恢复。

当我们遇到过各种各样的问题,比如应用程序bug、操作系统的bug、人为失误,甚至还有硬盘、内存、连接器、网络以及电源失效等造成的问题。所以,持续的监控、错误侦测、灾难冗余以及自动恢复的机制必须集成在gfs中。

其次,以通常的标准衡量,我们的文件非常巨大。数gb文件都可能非常普遍。每个文件通常都包含许多应用程序对象,比如web文档。

当我们未来需要处理快速增长并由数亿个对象构成的、数以tb的数据集时,采用管理数亿个kb大小的小文件的方式是非常不明智的,尽管有些文件系统支持这样的管理方式。因此,设计的假设条件和参数,比如io操作和block的尺寸都需要重新考虑。

第三,绝大部分文件的修改是采用在文件尾部追加数据,而不是覆盖原有数据的方式。对文件的随机写入操作在实际中几乎不存在。一旦写完之后,对文件的操作就只有读,而且通常是按顺序读。

大量的数据符合这些特性,比如:数据分析程序扫描的超大的数据集;正在运行的应用程序生成的连续的数据流;存档的数据;由一台机器生成、另外一台机器处理的中间数据,这些中间数据的处理可能是同时进行的、也可能是后续才处理的。

对于这种针对海量文件的访问模式,客户端对数据块缓存是没有意义的,数据的追加操作是性能优化和原子性保证的主要考量因素。

第四,应用程序和文件系统api的协同设计提高了整个系统的灵活性。比如,我们放松了对bfs一致性模型的要求,这样就减轻了文件系统对应用程序的苛刻要求,大大简化了bfs的设计。

bfs还引入了原子性的记录追加操作,从而保证多个客户端能够同时进行追加操作,不需要额外的同步操作来保证数据的一致性。”

端起咖啡又喝了一口,宁子默已经习惯了身边这四人目瞪狗呆的状态。

放下杯子,宁子默再也懒得去解释那些技术细节,但还是提点到:

“bfs一早就规划了四大核心技术体,其中涵盖了第一个部分的分布式基础设施,包含的模块有文件系统(file),分布式锁服务(chubby)和数据化序列协议(protocolbuffer)。

而第二部分是分布式大规模数据处理模块,其中包含分布式运算程序的编程框架和对应的数据查询语言。他们或许和sql和类似,但实际上它应该被称之为dsl(domain-specificlanguage)。

第三部分则是分布式数据库技术,它包含的模块就有分布式数据存储系统(bigtable)和数据库分区系统(sharding)。

最后一部分当然包含数据中心优化技术,这些技术中包括综合考虑的数据中心高温化,还有电池与服务器相应整合技术等。”

撇了撇嘴,宁子默皱着眉头说,“搜索引擎是一个全盘技术的考虑,但我仅仅只举了一个很简单的例子,并且其应用范围还只是在网页搜索结果当中,并没有提及一整个生态的整体考虑。

但我所说技术方面的内容,远比我现在讲给你们听的内容要复杂的多。每一个单项里都会包含大量工作人员相应的工作成果,确实不是短期内可以去实现的。

但好在我们【bing】团队的目标明确啊。”

“梦想还是要有的,万一实现了呢?”宁子默撇着嘴挑了挑眉毛。

这个轻挑的动作,在kaltix三人组的眼里却郑重如斯。

办公室里鸦雀无声,除了必要的眨眼,好半天都没有一个人有多余的动作。

穿成了豪门真千金的对照组  爱卿,龙榻爬不得  高冷总裁不存在的恋爱  后来我们会怎样  日初月星  哥哥教我  念于墨上那年  用心感受  京港蝶眠  对照组女配不干了[快穿]  圣女的屠龙悖论[西幻]  [综英美] 斯塔克小姐翻车了  [重生]学霸也挂科  给你一点甜  假如爱有时差(骨科兄妹乱)  重生之写手人生  《终于情深》  沧源天青  我们,只是朋友。  天亮说晚安  

热门小说推荐
超级灵泉

超级灵泉

我不是一名奸商。我的目标是追求更高质量的健康生活!因为一场意外,安良获得了一个成长型空间,空间内拥有一口神奇的灵泉,从而致力于有机农业餐饮业与旅游业的综合发展。安良不是一名奸商,真的!作者已完成610万字黑客,240万字神匠职业领主...

将军药别停

将军药别停

关于将军药别停世人皆知,墨府嫡女墨染染嚣张跋扈,蛮横无理。本着我心为善的美德,救了一个重伤男人,却不料被他缠上。赶又赶不走,打又不过,还要时时刻刻防止被人发现。离京五年,再度回京的墨绯夜发现,...

你是我的栀子花

你是我的栀子花

所有人都称呼秦苏扬为煞神,原因无他,做事心狠手辣,不留一丝余地。我感觉开会活像上断头台。别惹他,我们惹不起!然而某天,助理小心翼翼询问老板,你可以再买辆车,不用一直开我的,太旧了。秦苏扬一本正经省钱给女朋友花。拼尽全力,只为向她靠拢一点,看见的不再是背影。—她笑如栀子般甜美,清新。一笑入他眼,再笑入他心。哪怕他没有撼动大象的力量,他也要拼尽全力去守护,保护好她。你有没有想我?没有,我想你做的菜。夏恩妤直接否认。你想我做的菜,是不是间接在想我。顾泽微微一笑。你厚颜无耻!顾泽走过去,一把抱住脸有些微红的夏恩妤可我想你,想你想得紧。倾尽所有,只为靠近她一点。所有的温柔献给最爱的人。本文算有两个男主,没有男一男二什么的,不是后宫!!如果您喜欢你是我的栀子花,别忘记分享给朋友...

我的主神是团长

我的主神是团长

想成为轮回者吗?想穿越无数世界,想得到更加强大的力量!宝物!甚至世界吗!只要你愿意,我可以让你拥有一切!面对如此充满诱惑力的招揽,某个意外来到某个世界的穿越者想了想,微微一笑轮回者,似乎很有趣啊不过,我对穿越世界的方法更感兴趣啊!如果我能自由穿越世界的话!是不是也能招聘轮回者呢?想明白生命的意义吗?...

华娱大太监

华娱大太监

周尊,主业卖刀片,副业写作。他被称作大内总管。他的作品无一例外全部太监。挖坑不买坑,断更个把月,是他的常规操作。可即便如此,他创作的小说电影电视剧依旧火爆,偶尔还演个太监,拿个影帝,演技更是被写入教科书。对此,周尊表示看在我这么优秀的份上,让我请假一天,再请假一天,又请假一天如果您喜欢华娱大太监,别忘记分享给朋友...

农门悍女总裁一起来种田

农门悍女总裁一起来种田

关于农门悍女总裁一起来种田什么?总裁穿越成了穷吊丝,还得要种田才能吃上饭,同样穿越而来的何玉娇,捂着胸口感叹上天是公平的。只是何玉娇的日子也不好过,奶奶要把她嫁给麻子,家里人都讨厌她。好在还有宠闺女宠到无法无天的亲娘。...

每日热搜小说推荐