gpu 数据库

SQL数据库的历史可以追溯到1970年代,并且自1980年代起就是ANSI标准,但这并不意味着该技术可以保持不变。 它仍在变化,并且是GPU加速数据库的其中一种方式。

关系数据库的规模已经扩大到可以测量PB级甚至更高的数据集。 即使出现了64位计算和数TB的内存来提高处理能力,也仍然需要大量数据处理-CPU只能管理这么多数据。 那就是GPU出现的地方。

[了解更多: GPU计算是释放所有数据奥秘的关键 •有关机器学习中GPU革命的全部内容。 构建自己的GPU服务器以进行深度学习 | 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]

GPU已从加速游戏的最初使命转变为加速几乎所有内容。 英伟达已经精打细算地成为人工智能的代名词,这个过程需要并行处理大量数据以及可以很好并行化的其他任务。 AMD正开始追赶,但Nvidia遥遥领先。

说到核心,还差得远。 Xeon CPU最多具有22个内核。 AMD Epyc具有32个内核。 Nvidia Volta架构具有5,120个内核。 现在想象一下,有5,000个以上的内核在数据上并行运行,这很清楚为什么GPU在大型计算项目中如此流行。

因此,出现了一种全新的数据库,从头开始编写,以支持和拥抱GPU及其强大的并行处理功能。 这些数据库可以处理常规CPU驱动的数据库根本无法处理的数据集,从而使数据处理,分析和实时大数据达到新的水平。

GPU数据库已定义

GPU数据库的概念非常简单:它使用GPU的并行性来执行大量的数据处理加速。 GPU非常适合加速SQL查询的处理,因为SQL对集合中的每一行执行相同的操作(通常是搜索)。

但是,您不只是将一堆Nvidia Tesla卡放在托管Oracle数据库的服务器中。 从SQL JOIN操作开始,已经完全设计和编写了GPU数据库以执行并行处理。

JOIN建立数据库中多个表的列之间的关系,对于执行有意义的分析至关重要。 多年前,在传统RDBMS系统上针对JOIN的传统设计方法是为单核CPU设计的,即使对于CPU(尤其是GPU),它们也无法很好地发挥作用。

除了JOIN之外,GPU数据库还具有相当大的支持水平,包括:

  • 与流行的开源框架(如Hadoop,Kafka,HBase,Spark和Storm)的连接器。
  • ODBC和JDBC驱动程序,用于与现有的可视化和BI工具(如Tableau,Power BI和Spotfire)集成
  • 与流行的编程语言(例如C ++,SQL,Java,Node.js和Python)绑定的API。

在哪里使用GPU数据库

在这方面,GPU数据库实际上无法与Oracle,SQL Server或DB2竞争。 GPU数据库面向的是做出数据分析决策,公司试图从大量数据中实时做出决策,但由于数据过多或视觉分析工具太慢而无法进行决策。

GPU数据库供应商并不认为自己可以替代Oracle或Teradata之类的OLTP数据库。 GPU数据库不是针对传统的RDBMS工作负载,而是针对OLAP / OLTP世界和大数据 ,这些数据集非常庞大且需要实时。 GPU数据库不是在数小时或一夜之间运行的批处理过程,而是可以实时或每小时显示数据的地方。

GPU数据库应该可以解决NoSQL试图解决的许多问题,但是可以让您使用现有的结构化查询工具。 使用NoSQL意味着重写所有SQL工具,但是GPU数据库使用现有SQL工具。

“我们意识到人们已经意识到他们可以构建多维系统,并可以从多个场景中获取数据并进行组合,”使用GPU数据库SQream的IT咨询公司Datatrend Technologies的新兴技术解决方案架构师Steve Worthington说。 “医疗公司希望从多个系统中获取[数据]并跨数据库进行分析,因为以前,他们无法进行交叉引用,也无法加入数据库。”

他还列举了金融机构进行欺诈和风险分析的过程,这些机构现在可能只做信用卡检查,但想对多个帐户进行检查。 借助GPU的强大功能,他们可以立即交叉引用所有这些信息源。

对于位置服务提供商Skyhook的地理空间数据副总裁Rich Sutton而言,使用OmniSci GPU数据库给他的地理数据集可视化效果比基于CPU的数据库要大得多。 他说:“我可以将10亿行加载到OmniSci中,而几乎没有延迟,而不必查看传统CPU空间中的10,000行数据集。” “它有多个数量级,这对我来说有利于减少数据消耗,并大大减少了延迟。”

OmniSci的首席执行官Todd Mostak说,一位客户告诉他OmniSci的速度“降低了好奇心。 他们问一些以前会坚持的问题。” 一位金融服务客户告诉他,在传统数据库上进行18小时的处理查询的时间降低到了亚秒级,而一家电信公司告诉他,耗时数小时的查询现在可以在不到一秒的时间内响应。

GPU数据库的另一个地方是实时大数据,而Hadoop则不足。 GPU数据库提供商SQream的首席执行官Ami Gal说,大数据的许多希望(发现驻留在数十PB的行数据中的所有机会)在Hadoop上没有实现,因为它太慢了。

Spark非常适合数据移动和转换,但是一旦您需要处理大量数据并移动它们,您就开始处理成千上万的[计算]节点,这对于处理大型数据集来说实在太繁琐了。 但是,如果您可以使用10或15个节点来执行此操作,那将效率更高。”他说。

沃辛顿说,基于GPU的服务器可以在一个机柜中运行,而这需要许多机柜的CPU驱动的多并行处理(MPP)节点。 “我们可以用六个节点替换每个MPP节点机架,每个节点中有2至4个GPU。 这样一来,我们可以用不到一百万美元的投资来代替一千万美元的投资。”他说。

GPU对Skyhook也很重要,后者可以对大型地理数据集进行可视化。 “如果您在一分钟内有数百万次在现场和ping位置,那么您每天要谈论20亿条数据。 这在传统数据库中是不可能的。 只是不可能。 因此,[a] GPU [数据库]使您可以使用这些数据。” Sutton说。

在采用OmniSci之前,Skyhook将不得不“金字塔化”数据,仅将其中的一部分用于可视化。 萨顿说,现在,它可以查看整个数据图。 “我从未见过其他可行的方法来使数据成型以适应我的使用方式。”

GPU数据库:可用功能

GPU数据库完全是一种新兴现象,诸如BrytlytSQream TechnologiesOmniSciKineticaPG-StromBlazegraph之类的公司都是如此

它们的工作方式略有不同。 例如,OmniSci进行数据可视化,而SQream使用连接器连接到Tableau等可视化工具,因此需要分别评估每个工具,以确定最适合您的需求。

除了IBM之外,RDBMS中的知名人士尚未加入,IBM确实支持DB2 Blu(用于分析工作负载的DB2的特殊版本)中的某些GPU处理。 Oracle和TeraData都表示他们正在与Nvidia合作,但目前还没有。 Microsoft在SQL Server上不支持GPU加速。 SQream的Gal表示,他听说所有RDBMS供应商都在努力为其产品添加某种GPU支持,但没有进一步的信息。

翻译自: https://www.infoworld.com/article/3327561/what-a-gpu-powered-database-can-do-for-you.html

gpu 数据库

Logo

NVIDIA官方入驻,分享最新的官方资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐