“双11”流量检查和通过流量计算有助于


2019-11-14 14:06 来源:东南网

“双十一”流量大考过关 流计算功不可没

本报记者崔爽

如何把握此次泄洪的“洪峰”是一年一度的“双十一”技术考试。随着交通流量的激增,这一大考验无疑变得越来越困难。

“双十一”刚刚过去,大型电子商务公司在那天宣布了他们的结果。从目前发布的数据来看,不难看出今年订单创建的“双十一”高峰达到新高,日常数据处理记录再次刷新。

“双十一”不仅有大量的数据,而且实时变化。可以说,每个购物数据都是个性化和动态的。为了完成处理它们的工作,需要强大的计算能力作为支持。

”今年的数据处理不仅包括批处理(batch processing of data),还包括流处理,即数据的实时处理。巨大的交易数据每分每秒都在变化。它们不会从数据库中计数,但系统会自动逐层收集它们。”阿里巴巴集团首席技术官张剑锋表示。他称之为“流处理”的是流计算,即实时计算。它在支持“双十一”流动的“高峰”方面发挥了重要作用。

那么,什么是流量计算?它如何抵御“双十一”泄洪的“洪峰”?对此,《科学技术日报》的记者采访了该行业的专家。

以内存取代硬盘实现快速处理

北京科技大学计算机学院副院长兼教授刘驰(Liu chi)在接受《科技日报》记者采访时解释说,流计算是指当一段数据被处理时,它会被立即序列化到内存中,然后通过网络传输到下一个节点,然后由下一个节点进行处理。这种流式技术使用内存而不是硬盘来实现快速数据处理,这是流式计算能够高效处理数据的根本原因他说。

刘驰认为,流计算有很多优点,如高性能、海量、实时、分布式、易用性、可靠性等。其主要应用方向是:金融和科学计算中数据的快速计算和分析;对社交网站、电子邮件、视频、电话记录、电子传感器等中存在的数字格式信息流进行快速处理和反馈。

"流可以用于两种不同的计算场景:事件流和连续计算."刘驰表示,在事件流场景中,系统将继续生成大量数据,这些数据首先出现在银行和股票交易领域,以及互联网监控、无线通信等领域。这些领域的相关服务需要流计算技术以近乎实时的方式对数据流进行复杂的分析。

”在连续计算场景中,例如大型网站,流式计算技术可以实时动态刷新用户访问数据,显示网站上实时流量的变化,并分析一天中每个小时的流量和用户分布。一些需要实时处理数据的场景也可以应用于流计算技术,例如根据用户行为生成的日志文件的实时分析,以及向用户实时推荐商品。”刘驰说道。

实时采集、实时计算、实时查询

刘驰告诉记者,流量计算过程一般包括三个阶段:实时数据收集、实时数据计算和实时查询服务。

首先,后台人员将使用实时数据集成工具将数据实时传输到流式数据存储系统。具体过程是,系统将把长时间积累的大量数据分散到每个计算时间节点,并实时小批量连续传输数据。此时,数据将被连续写入流数据存储系统,而无需预加载过程。同时,在此过程中,数据会持续流动,并在计算完成后立即被丢弃。

然后,与批处理计算不同,批处理计算仅在数据集成完成后才启动计算作业,流式计算作业是常驻计算服务。一旦启动,它将始终处于等待事件触发的状态,即一旦一小批数据进入流式数据存储系统,流式计算系统将立即计算并获得结果。与此同时,一些电子商务平台的流量计算团队也使用增量计算模型对批量的大量数据进行增量计算

最后,使用数据批量处理方法,在将数据批量传输到在线系统之前,通常需要等待获得数据计算结果。流式处理方法可以在每一小批数据计算完成后立即将计算结果写入在线系统。“这样,我们就可以在流量计算数据查询系统中查询在线系统的数据处理结果,而无需等待所有数据计算工作完成。技术人员还可以向可视化系统发送实时结果,以实现计算结果的实时显示。”刘驰说道。

技术虽强大但仍存在短板

然而,刘驰说,虽然流量计算功能强大,但也存在技术缺陷。

"如果当系统内存不足时,您必须满足多个用户的数据请求,那么每个用户实际上将被分配非常少的内存。此时,在应用流技术之后,由于内存需求的增加,系统将把最初分配给多个用户的所有内存资源分配给一个用户。其他需要内存的用户将被迫等待,因为没有可用的内存,在占用内存资源的用户退出之前,其他用户将无法使用内存。刘驰表示,同时,由于网络延迟等各种原因,实时计算环境将改变程序到达计算节点的顺序。

"此外,流式计算技术面临着数据的不断涌入,如果像批处理一样计算数据,可能会导致计算根本无法完成,或者随着时间的推移需要保存越来越多的数据,从而给内存造成巨大压力。"刘驰补充道,“随着数据的不断生成,计算需要继续。但是,只要计算时间长,问题的概率就会大大增加。一旦出现问题,如何保存和恢复计算过程中缓存的一些数据将成为一个更大的问题。”