全站搜索
首页_赢咖4星辉-官方注册地址
首页_赢咖4星辉-官方注册地址
赢咖4注册助力转型:GPU如何完成曾经不可能完成的分析工作
作者:管理员    发布于:2021-08-08 13:23    文字:【】【】【

  最新版本的Cloudera Data Platform采用通过NVIDIA技术加速的Spark 3.0,能够帮助操作团队实现8倍性能提升,从而成功运行一项原本不可能完成的工作。

  Deborah Tylor凭借坚持不懈的精神以及正确的的工具,完成了一项原本不可能完成的任务。

  作为一名数据科学家,Tylor的任务是整理美国国家税务局超过300 TB的数据库,寻找可能有助于识别身份盗窃和其他欺诈行为的规律。但即使她让一大批CPU服务器工作了一整夜,也无法完成这项数据整理工作。

  Tikekar表示:“我抓住了这次机会。虽然我们的独立服务器配备了NVIDIA显卡,但我们却无法在分布式集群上使用Spark来运行它们,所以这对我们来说是一个绝佳的机会。”

  对软件进行快速测试后,在没有修改任何代码的情况下,Tylor在这项工作中的许多步骤就立即加快了5倍,但有几个部分仍然滞后。

  Ismaily召集了NVIDIA数据科学家团队来检查代码的核心内容。他们很快就发现一些数据结构非常糟糕的任务仍在CPU上运行。于是他们编写了代码来处理这些工作并将其插入Spark的RAPIDS软件接口中。RAPIDS是一个在GPU上运行数据分析的开放资源库。

  Tylor又进行了一次测试,结果发现一切都能在分布式Spark集群的GPU上顺利运行,而且速度提升非常明显。她在一个四节点的集群上运行了整个程序。

  美国国税局研究和应用分析与统计部门技术主管Joe Ansaldi表示:“通过Cloudera和NVIDIA的这一技术整合,我们能够利用以数据为依据的洞察来推动关键任务用例。”

  “我们目前正在应用这一技术整合,这使得我们的数据工程和数据科学工作流程以一半的成本获得了超过10倍的速度提升。” Ansaldi补充道。

  凭借由GPU驱动的服务器所组成的Spark集群,该团队能够加速目前所有的工作并运行其他以前被认为不可能实现的工作。并且这些工作可以帮助该团队处理他们所掌握的大数据集。

  Tikekar表示:“在Spark 3.0之前,我们不可能完成这些工作,但现在我们通过GPU大幅提升了速度并且可以期待以此解决之前无法解决的问题。”

  该团队计划把其成功经验运用在数据准备,也就是数据分析中的提取/转换/加载(ETL)方面的工作上。下一步重大计划是加速各类AI推理工作。

  Tikekar表示:“与Cloudera和NVIDIA的这一合作帮助我们能够在集群中驾驭GPU。当出现此类技术进步时,需要一段时间来认识它们的力量并开发可以使用它们的应用,所以Deborah Tylor确实为我们制定了新的路线图——她是整件事中的主角。”

  具体而言,该团队接下来致力于通过建立大型深度学习神经网络来进行自然语言处理和分析。

  “我个人认为机器学习具有令人难以置信的潜力,使过去难以实现的事情成为可能。”Tikekar表示。作为一位计算机科学博士,他于13年前加入国税局,此前曾在南俄勒冈大学任教十年。

  “例如,现在我们可以扫描表格,然后使用光学字符识别来阅读其中的片段。但有了AI之后,我们可以更加高效地阅读表格并找到有助于识别身份盗窃或减少浪费的规律。很多应用在许多方面都受益于AI。” 赢咖4他补充道。

  如想进一步了解使用NVIDIA GPU加速Cloudera的7.1.6,请观看2020年10月发布的GTC演讲(注册后可免费观看)。两家公司也是在那时宣布了合作关系。

相关推荐
  • 赢咖4娱乐集智俱乐部 × 重庆大学因果科学暑期学校 8 月 14-17 日线上举办基础 + 前沿 + 实践一站习得
  • 赢咖4注册助力转型:GPU如何完成曾经不可能完成的分析工作
  • 赢咖4娱乐上个月这个做 AI 的开源数据库悄悄火了
  • 赢咖4娱乐2021年机器学习股票龙头股是什么?机器学习股票有哪些?
  • 赢咖4注册第二十届全国大学生机器人大赛在济宁邹城圆满闭幕
  • 赢咖4注册机器学习上市公司概念股有哪些?机器学习板块股票一览
  • 赢咖4注册Google Pixel 6首次配备三重后置摄像头你会买谷歌手机吗?
  • 赢咖4注册容器中人工智能机器学习的工作负载:6件要知道的事情
  • 赢咖4机器学习板块概念股有哪些?2021年机器学习概念股龙头股一览表
  • 赢咖4北京大学 - 腾讯协同创新实验室公布新研发计划 Angel 机器学习平台将实现跨越式升级
  • 脚注信息
    版权所有 Copyright(C)2020 星辉娱乐
    网站地图|xml地图|友情链接: 百度一下