解决方案

电话:010-62105050

传真:010-62105505

地址:北京市海淀区知春路56号中国天利大厦10层

当前位置:首页 - 解决方案 - 数据处理解决方案
一、          /半结构化数据处理(Hadoop)

平台由信息自动采集、信息管理、信息分析、信息智能处理、信息服务等层次组成:

数据源层:主要包含内外部信息系统。(互联网,内部数据库系统)等;

连接器层(数据采集层):主要负责对所监控的网站、论坛、博客等互联网信息和数据库、文件(包括TxtRtfDocPDFHTMLXMLWVMRM等)、大型应用系统等内部信息进行数据采集,所有的过滤策略、周期设定、周期更新、格式处理、编码转换等操作都在此层来进行实现。特别数据采集模块能够采集境外屏蔽网站信息。

智能数据操作层:负责所有的信息处理,采用智能处理技术,对采集到的信息进行自动分类、规整、聚类、分析、标引等操作,供应用层的业务功能模块所调用。

应用层:主要实现业务功能,是用户界面部分。通过调用核心处理层的各个功能模块,来实现自动监控、主动监测、趋势分析、自动报警提示等功能。

核心处理层,是整个系统建设的关键。内容智能处理平台提供的智能信息分析技术,不仅支持关键词技术,也支持自然语言的概念匹配技术,为上层的业务应用功能提供强有力的技术支持。

信息智能采集分析系统采用多层结构,实现客户机只存放表示层软件,应用逻辑包括事务处理、监控、信息排队、Web服务等采用专门的Web Service,后台是数据库。

在多层分布式体系中,系统资源被统一管理和使用,用户可以通过统一门户透明地使用整个网络资源,管理简单、易维护、易升级。

二、          并行数据仓库(PDW

一体机体系结构概述

该一体机是一种多机架系统,包括一个执行控制功能的控制机架和一个或多个存储用户数据并处理并行查询的数据机架。您可以使用从1/4数据机柜起,根据工作负荷或数据量的要求,可以将其升级到一个完整的机柜,最多可升级到6个机柜。

PDW体系结构的各组件如下图所示:

PDW内部的软件体系结构如下图所示:

PDW通过虚拟化的技术,将PDW的各个功能组件分别部署在不同服务器的虚拟机中

(1)     管理服务器

管理服务器上承载着整个PDW集群管理的虚拟机节点,包括控制节点(CTL),管理节点(MAD01),虚拟机管理(VMM),PDW域控制器(FABAD

控制节点(CTL):客户端通过控制节点访问PDW平台,该节点将整个基础结构抽象为一个单独的数据库并提供了单独的管理点。PDW支持基于ADO.NetOLEDBODBC的连接。控制节点为一体机提供了控制、管理和用户界面功能。它充当了用户与计算节点之间的界面。一种称为“Admin Console”的基于浏览器的实用工具为该一体机提供了全面的监控。

MPP引擎在控制节点中运行,它会分析传入的请求。它利用数据智能来创建一体机范围内的并行查询计划并协调一体机内的查询执行情况。一体机范围内的元数据和数据库配置数据也存储在控制节点内。

DMSData Movement Service,数据移动服务)作为一种服务在控制节点中运行,它负责一体机各节点之间的数据传输。它会处理需要在节点之间传输数据的查询操作,它的主要功能是优化数据传输速度,从而能够提高性能。

控制节点作为SQL Server的一个实例运行,它可以管理一体机的元数据。

管理节点(MAD01):管理节点负责管理一体机中的硬件和软件。它提供了安全管理、运行情况和性能监控功能。它还可以执行维护活动,如利用Windows Software Update ServiceWSUS)接收软件更新程序并将软件更新程序部署到一体机的所有节点上。它存储着镜像文件,可在某个节点需要重新建立镜像时使用;它还装有PDW配置管理器,可进行配置管理。

虚拟机管理(VMMPDW所有管理以及负载活动均在虚拟机当中进行,通过虚拟机管理节点对整个集群内不同角色的虚机进行集中管理。

PDW域控制器(FABADPDW集群内的域控制器。

(2)     计算服务器

计算节点:计算节点服务器是该解决方案的存储功能和可伸缩性的一个基本组成部分。每个计算节点都作为SQL Server的一个实例运行,如其名称所示,大部分计算和查询操作都在此节点内执行。计算节点中的数据机架装载着存储用户数据库并执行并行查询操作的硬件。每个用户数据库都分布在多个SQL Server数据库实例之间。您可以使用多个数据机架,并通过添加数据机架来提高存储量和性能(如上文所述)。它以无共享体系结构为基础,不与其它计算节点共享存储器、CPU或内存。每个机架都有一台备用服务器,它配置为被动式MSCS(微软群集服务)群集服务器。如果某个计算节点服务器无法使用,其存储阵列将会转移到备用服务器。

计算服务器通过SAS直连JBOD磁盘组,采用Windows Storage Spaces技术来处理磁盘的镜像和热备。

每个计算服务器中部署一个计算节点的Hyper-v的虚拟机。

(3)     高可用热备服务器

根据应用要求在每个PDW机柜中提供1个或以上热备节点,提供高可用(HA)服务。当机架中的任意一个物理服务器发生故障时,该服务器在很短的时间内自动接管故障服务器上的服务。PDW中的故障转移通过Hyper-V技术实现,同时通过Windows Storage Spaces技术来处理磁盘的镜像和热备

(4)     其他服务器节点(可选)

数据装载区:装载区可支持持续的数据仓库加载。通过DWLoader加载平面文件数据。也可以安装SQL Server来创建暂存数据库,以便将数据加载到PDW中。第三方软件和工具(ETL或其它)可下载到装载区并在此安装。

备份节点:它是PDW的一个可选组件。其存储容量相当大,除了备份功能之外,它还可以用作暂存区,作为对登陆区的补充。确切地说,它可以在大量历史数据的初始加载过程中使用。备份文件可以从此处复制到非一体机存档位置。

(5)     服务器间的网络连接

依据网络的流量特性PDW服务器集群节点间采用了两种不同的连接方式以提高系统的性能和稳定性

支持万兆的以太网络提供PDW集群内服务器的管理控制以及对外的连接访问

支持高达56GB/sInfiniBand网络:提供控制服务器及计算服务器间高速的数据访问连接

(6)     集中地管理

PDW一体机可通过其附带的基于网站的管理控制台进行管理。通过此工具,数据库管理员可以查看目前正在运行的查询(在单独节点的分布/分区级别也提供了统计数据),监控正在进行的加载,查看历史查询并进行其它相关操作。管理节点还带有群集和自动存储管理器,可对PDW进行高级管理。这样,存储管理操作就可以自动进行,让管理员能够通过基于网站的高级管理控制台(包括警报)和HPC工具(已经过预配置,可监控整个解决方案)对存储情况进行全方位的监控。另外,通过合并的SQL Server Dynamic Management Views (DMVs),数据库管理员可以使用标准的SQL查询从整体上监控PDW系统的状态,这对于批处理流程的自动化是最理想的。存储管理不会带来额外的费用。

图:Admin Console示例

与其它所有微软产品一样,PDW也可以通过系统中心操作管理器(System Center Operations Manager)进行监控和操作。我们提供了一个管理包(Management Pack),它具有以下功能:

·      发现PDW一体机。对SQL Server一体机的基本管理包进行快照处理,以便在所有一体机之间提供一致的发现模型。

·      监控PDW一体机的硬件和软件组件。

·      能够跨越硬件和软件组件汇总整体的运行状况信息。

·      能够检测和监控属于不同PDW群集的节点(多机架支持)。

·      提供了一体机的每个运行状态的详细信息,能够更迅速地解决问题。

·      作为配置文件运行,安全地连接到多个PDW一体机,以便进行发现和监控操作。

·      自定义视图直观地表示了PDW一体机的层次结构(包括硬件和软件组件)。视图一共有三种状态,包括:

·      一体机视图提供了整个一体机的运行状况及其各个节点的高级信息。

·      一体机节点表示每个节点的运行状况及角色的视图。

·      警报视图 – IT操作人员可以使用该视图来查看警报并采取适当的措施。自定义的电子邮件模板提供了关于警报的详细信息。

三、          流数据处理(CEP

利用Microsoft StreamInsight™ 进行流数据的处理,StreamInsight是一个功能强大的平台,可用于开发和部署复杂事件处理 (CEP) 应用程序。 它具有高吞吐流处理体系结构和基于 Microsoft .NET Framework 的开发平台,可帮助迅速实现稳定而高效的事件处理应用程序。事件流源通常包括来自生产应用程序、财贸应用程序、Web 分析以及运营分析的数据。 通过使用 StreamInsight,开发出的 CEP 应用程序可降低提取、分析和整理数据的成本,还可以即时监控和管理数据,挖掘数据中的条件、机遇和缺陷,进而从那些原始数据中获得直接业务价值。

利用 StreamInsight 开发 CEP 应用程序,可以为企业实现以下战术和战略目标:

·   监控多来源数据中有意义的模式、趋势、异常和机遇。

·   以增量方式分析和关联尚在传输的数据,无需先存储数据,因而大大降低了滞后时间。 将来自多个源的不相关事件无缝聚合,执行一段时间内的高复杂度分析。

·   通过对事件执行低滞后分析,以及触发对业务关键绩效指标 (KPI) 所定义的响应操作来管理业务。

·   通过将 KPI 定义纳入 CEP 应用程序的逻辑中来快速响应机遇或威胁的各个方面,从而提高运营效率以及快速响应商机的能力。

·   挖掘事件以寻找新的业务 KPI

·   通过挖掘历史数据,持续精细化和改进 KPI 定义,移向预测性业务模型。

Microsoft StreamInsight 的运行时组件是 StreamInsight 服务器。它包括事件源、一组使用查询检查事件流的固定进程,以及处理结果的事件接收器。 StreamInsight 框架允许开发人员创建到事件生成器(如 Web 服务器、设备或传感器、股票行情显示器或新闻源)和事件使用者(如寻呼机、监视设备、KPI 仪表板、交易所或数据库)的接口。 传入事件通过查询连续流入 StreamInsight 服务器,后者根据每个查询中定义的逻辑处理和转换数据。 输出中的查询结果可用于触发特定操作。

下图是 StreamInsight 体系结构:

Figure 流数据处理体系结构

StreamInsight 具有下列主要优点: 

1)高度优化的性能和数据吞吐量 

StreamInsight 实现了轻量级流式体系结构,可支持对高速数据高度并行执行连续查询。使用内存中缓存和增量结果计算,可带来高数据吞吐、低滞后时间的卓越性能。因为在关键处理路径中无需进行数据加载或存储操作,所以可实现低滞后时间。 借助 StreamInsight,所有处理都由传入事件自动触发。 特别地,应用程序无须为事件轮询付出任何开销。 此平台提供了无序事件处理功能。此外,可以访问静态引用或历史数据,这些内容包括在低滞后时间分析中。

2.NET 开发环境 

开发人员可以使用 Microsoft .NET 语言(如 Visual C#)来编写 CEP 应用程序,从而利用高级语言平台 LINQLanguage Integrated Query,语言集成查询)作为嵌入式查询语言。  如果庞大的开发人员社区都已经熟悉了这些技术,则此功能将降低从应用程序开发到生产整个过程中所需的开发成本和时间。 在当前版本中,StreamInsight 只支持 C# 作为宿主语言。

使用 LINQ,熟悉 SQL 的开发人员可以很快以声明方式编写查询,将来自多个流的数据处理并关联到有意义的结果中。  StreamInsight 服务器中的优化器和计划程序相继确保优化查询性能。

3)灵活的开发功能 

StreamInsight 支持三种部署方案: 

Ø   作为托管(嵌入式)DLL 完全集成到应用程序中。 

Ø   作为一台拥有多个应用程序和共享该服务器的用户的独立服务器。  在其独立配置中,StreamInsight 服务器在一个包装(如可执行文件)中运行,也可以将服务器打包为一项 Windows 服务。

Ø   托管或独立 StreamInsight 服务器可作为服务器场的一部分。 

4)可管理性 

Ø   StreamInsight 服务器中内置了监控和可管理性功能,支持 CEP 应用程序低总拥有成本 (TCO)StreamInsight 服务器中提供的管理界面和诊断视图允许管理员监控和管理 CEP 应用程序。 可管理性框架也允许 ISV 和系统集成商在生产以及其他扩展安装中远程监控和支持 StreamInsight 部署的系统。

Ø   StreamInsight 提供独立的事件流调试程序,可用来分析、诊断和排查 StreamInsight 中使用的查询。

四、          微软大数据平台的主要优势

用于数据仓库、抽取、转换和加载功能(ETL)和商业智能(BI)的完整的端到端解决方案,其设计旨在以合理的总拥有成本(TCO)向市场提供领先的门户、商业智能和数据仓库平台。据GartnerForesterInformation WeekIDC的资料所述,微软是BI、数据仓库领域的领先者。

该解决方案提供了一个为未来而设计的全面的、可伸缩的数据仓库和商业智能解决方案,启用了大规模可伸缩性和存储扩展功能,并支持具有复杂工作负荷特性的大量并发用户。

大规模并行处理、无共享体系结构,提供了更快的查询性能和高效的数据仓库。

强大的挖掘、预测分析、假设分析和预测功能,使用了世界第一的联机分析处理(OLAP)引擎SQL Server Analysis Services

线性的可伸缩模型,可增加数据量和分析处理需求。

技术成熟、基于成本角度而设计并经过优化,以实现最佳的并行执行效果和性能。

高性能、高速ETL、扩展的集成功能,具有内置的PDW DWLoaderSQL Integration ServicesSQL Integration Services提供了创世界记录的性能,可在30 分钟的时间内加载1TB的数据。

开放、灵活的体系结构,具有模块化集成、可交互操作的平台,可支持分布式中心辐射型体系结构。每个机架具有多个计算节点,拥有其自己的存储器、中央处理器(CPU)和随机存取内存(RAM)。

现有的BIETL 工具可以针对PDW数据仓库进行有效的利用。

支持混合工作负荷。复杂、中等难度和简单的查询、ETL、备份等操作全部并发执行并并行处理。

PDW引擎和端到端解决方案具有低廉的总拥有成本。

内置的管理员控制台(Admin Console)。可以使用Admin ConsoleSQL Server PDW一体机进行监控。

高可用性。PDW一体机的设计是为了完全实现高可用性,服务器、存储器、电源和网络组件都内置了冗余性和弹性功能,同时硬件、软件和操作系统都具有自动、透明的故障转移功能。

基于网站的界面具有单独的外观和使用感觉。丰富、强大的可视化和报表功能。

更快的查询、报表响应时间和功能,可进行更好的趋势分析和预测分析。Vertipaq引擎和列索引实现了高速的性能。

PDW可选内置的备份节点,支持并行的备份机制,提高数据库备份和恢复的性能。同时SQL Server提供了内置的备份软件。

更丰富的业务分析和用户界面(UI)功能,如仪表板、图形报表、关键绩效指标(KPI)、趋势分析等;富有创意的特色功能,如深化、分解树等。

自助式商业智能功能,使用了PowerViewPower Pivot Services for SharePointExcel ServicesReport Builder

在硬件和供应商中进行选择。解决方案以来自DellHPIBMEMC等多家供应商的行业标准硬件为基础,为客户提供了灵活性和选择。

提供了第1层的企业级技术支持。

上市时间。通过广泛可用的技能集、使用常见、熟悉的工具进行开发和部署以及在几个层级实现自动化的集成环境,我们希望缩短价值实现时间并迅速着手使用该解决方案。

未来的机动性。通过Big DataStreamInsight等功能,从任何类型的数据中提供商业洞察力,同时提供实时、适时的数据仓库(DW)和商业智能(BI)。它是为商业智能和数据仓库提供的最佳的基于云的产品。

开发和维护

微软设计PDW是为了最大限度减少开发工作以及数据库管理员(DBA)的实现、部署和维护工作,并最大限度利用目前常用的SQL Server产品使用的技能。

调试、团队开发、应用程序生命周期管理等功能与Visual Studio套件进行了完全的集成。

一体机存储器包括高性能的网络存储器以及具有高级RAID管理和Energy Smart Server技术的高密度存储器。

发布日期:2014-2-28 本文被浏览了413次
网站首页    |    关于我们    |    产品中心    |    解决方案    |    客户服务    |    市场活动    |    企业文化


©2014
 北京兴润佳源科技有限公司 技术支持:刘刚
地址: 北京市海淀区知春路56号中国天利大厦10层