当前位置:CIO频道技术探讨 → 正文

Azure Databricks:使用Apache Spark在云中进行快速分析

责任编辑:cres 作者:Simon Bisson |来源:企业网D1Net  2017-12-05 11:11:54 原创文章 企业网D1Net
微软与Databricks的合作为Azure的数据平台增添了新的分析工具。
 
我们生活在一个大数据的世界里。目前这一代业务计算机系统每年产生数TB的数据,通过CRM和ERP跟踪销售和生产。这个数据洪流只会随着我们添加的工业物联网传感器而变得越来越凶猛,即便是实现最简单的预测/维护系统也要用到这样的数据。
 
拥有这些数据是一回事,使用它们是另一回事。大数据通常是非结构化的,分布在很多沙龙国际手机版和数据库中。你需要用工具将它们收集在一起。这就是Apache Spark这样的大数据分析工具发挥作用的地方。这些分布式分析工具可以跨计算机集群工作。基于Hadoop等工具所使用的MapReduce算法开发的技术,今天的大数据分析工具进一步支持更多类似数据库的行为,大规模地处理内存数据,使用循环加快查询速度,为机器学习系统提供基础。
 
Apache Spark速度很快,但Databricks速度更快。Databricks由Spark团队创建,是Spark的云优化版本,利用公共云服务迅速扩展,并使用云存储来托管数据。它还提供了一些工具,你可以使用Jupyter Notebook等工具推广开来的笔记本模型,以让你更轻松地探索数据。
 
微软对Azure Databricks的新支持称为Azure Databricks,它标志着云服务的新方向,将Databricks视作合作伙伴请进门,而不只是获取它。
 
虽然你一直可以在Azure上安装Spark或Databricks,但Azure Databricks实现了在Azure Portal驱动安装过程的一键式体验。你可以使用自动调节来托管多个分析集群,以最大限度地减少正在使用的资源。你可以克隆和编辑集群,针对特定作业调整它们或对相同的基础数据运行不同的分析。
 
配置Azure Databricks的虚拟设备
 
微软新服务的核心是使用在Azure容器服务上运行的容器构建的托管的Databricks虚拟设备。你可以选择它控制和使用的每个集群中的虚拟机数量,然后该服务将在配置并运行后自动处理负载,并装载新的虚拟机以处理运行规模。
 
Databricks的工具直接与Azure资源管理器交互,Azure资源管理器为你的Azure订阅服务添加安全组和专用存储账户和虚拟网络。它可以让你的Databricks集群使用任何类别的Azure虚拟机——所以如果你打算使用它来训练机器学习系统,你会选择一个最新的基于GPU的虚拟机。当然,如果一个虚拟机模型不适合你的问题,你可以将其切换为另一个。你只需克隆一个集群并更改VM(虚拟机)定义即可。
 
Spark查询使工程技术得以引入数据科学
 
Spark有自己的基于SQL的查询语言,它与Spark DataFrames一起处理结构化和非结构化数据。DataFrames相当于一个关系表,它建立在不同工场的分布式数据集合之上。使用命名列,你就可以使用R和Python等语言构建和操作DataFrame;因此,开发人员和数据科学家都可以利用它们。
 
DataFrames本质上是数据的一种领域特定语言,这种语言扩展了所选平台的数据分析功能。通过将熟悉的库与DataFrames结合使用,你可以构建复杂的查询,从多个来源获取数据,跨多个列进行工作。
 
因为Azure Databricks本质上是数据并行的,并且只有在需要实现动作时才对其查询进行评估,所以它可以非常快地呈现查询结果。由于Spark支持本地或扩展的大多数常见数据源,因此可以相对轻松地将Azure DatabricksDataFrame和查询添加到现有数据,从而减少了迁移数据的需求以利用其功能的需求。
 
尽管Azure Databricks跨源提供高速分析层,但它也是数据科学家和开发人员尝试构建和探索新模型的有用工具,它可以将数据科学转化为数据工程。使用Databricks Notebook,你可以开发数据的暂存视图,代码和结果都显示在这个视图中。
 
由此产生的笔记本是共享资源,所以任何人都可以使用它们来探索数据并尝试新的查询。一旦查询经过测试并转换为常规作业,其输出可以作为Power BI仪表板的一个元素公开,从而使Azure Databricks成为端到端数据架构的一部分,它支持比简单的SQL或NoSQL服务更为复杂的报告——甚至支持Hadoop。
 
微软加Databricks:Azure服务的新模型
 
微软还没有详细说明Azure Databricks的价格,但它声称它可以提高性能并降低多达99%的成本,比在Azure的基础架构服务上运行你自己的非托管的Spark安装。如果微软的说法得到证实,那么这有可能节约大量资金,特别是当你不再需要运行自己的Spark基础架构的因素也要算进来。
 
Azure的Databricks服务将直接连接到Azure存储服务,包括Azure Data Lake,同时优化查询和缓存。也可以选择与Cosmos DB一起使用,以便你可以利用全局数据源和一系列NoSQL数据模型(包括MongoDB和Cassandra兼容性)以及Cosmos DB的图形API。它与Azure的数据流工具也配合得不错,为你提供近乎实时的物联网分析的新选项。
 
如果你已经在使用Databricks的Spark工具,这项新服务不会影响你或你与Databricks的关系。只有将本地开发的模型和分析功能迁移到Azure的云,你才会与微软发生计费关系。你的管理任务也减少了,从而让你有更多时间处理数据。
 
微软在新服务上与专家伙伴合作的决策是很有意义的。Databricks有专业知识,而微软有平台。如果最终的服务取得成功,它可以为Azure未来的发展树立一个新的模式,在企业现有资源的基础上,使其成为Azure混合云的一部分,而无需将这些服务融入到微软中。
 
版权声明:本文为企业网D1Net编译,转载需注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。
关键字:CIO 大数据 原创文章 企业网D1Net
Azure Databricks:使用Apache Spark在云中进行快速分析 扫一扫
分享本文到朋友圈
关于我们联系我们版权声明友情链接广告服务会员服务投稿中心招贤纳士 企业网版权所有©2010-2018 京ICP备09108050号-6
^
沙龙国际手机版