全站搜索
首页_赢咖4星辉-官方注册地址
首页_赢咖4星辉-官方注册地址
赢咖4吴恩达:一个机器学习团队80%的工作应该放在数据准备上
作者:管理员    发布于:2021-04-20 10:44    文字:【】【】【

  机器学习的进步是模型带来的还是数据带来的,这可能是一个世纪辩题。 吴恩达对此的想法是,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。

  赢咖4注册

  当去arxiv上查找机器学习相关的研究时,所有模型都在围绕基准测试展示自己模型的能力,例如Google有BERT,OpenAI有GPT-3,这些模型仅解决了业务问题的20%,在业务场景中取得更好的效果需要更好的数据。 传统软件由代码提供动力,而AI系统是同时使用代码(模型+算法)和数据构建的。以前的工作方式是,当模型效果不理想,我们就会去修改模型,而没有想过可能是数据的问题。 机器学习的进步一直是由提高基准数据集性能的努力所推动的。研究人员的常见做法是在尝试改进代码的同时保持数据固定,以模型改进为中心对模型性能的提升实际上效率是很低的。但是,当数据集大小适中(

  根据剑桥研究人员所做的一项研究,最重要但仍经常被忽略的问题是数据的格式不统一。当数据从不同的源流式传输时,这些源可能具有不同的架构,不同的约定及其存储和访问数据的方式。对于机器学习工程师来说,这是一个繁琐的过程,需要将信息组合成适合机器学习的单个数据集。 小数据的劣势在于少量的噪声数据就会影响模型效果,而大数据量则会使标注工作变得很困难,高质量的标签也是机器学习模型的瓶颈所在。 这番话也引起机器学习界对MLOps的重新思索。

  MLOps是什么? MLOps,即Machine Learning和Operations的组合,是ModelOps的子集,是数据科学家与操作专业人员之间进行协作和交流以帮助管理机器学习任务生命周期的一种实践。

  与DevOps或DataOps方法类似,MLOps希望提高自动化程度并提高生产ML的质量,同时还要关注业务和法规要求。 互联网公司通常用有大量的数据,而如果在缺少数据的应用场景中进行部署AI时,例如农业场景 ,你不能指望自己有一百万台拖拉机为自己收集数据。 基于MLOps,吴恩达也提出几点建议:

  标签的一致性也很重要。检验标签是否有自己所管辖的明确界限,即使标签的定义是好的,缺乏一致性也会导致模型效果不佳。

  系统地改善baseline模型上的数据质量要比追求具有低质量数据的最新模型要好。

  一致性的数据定义,涵盖所有边界情况,从生产数据中得到及时的反馈,数据集大小合适。 吴恩达同时建议不要指望工程师去尝试改善数据集。相反,他希望ML社区开发更多MLOps工具,以帮助产生高质量的数据集和AI系统,并使他们具有可重复性。除此之外,MLOps是一个新生领域,MLOps团队的最重要目标应该是确保整个项目各个阶段的高质量和一致的数据流。

  一些MLOps的工具已经取得了不错的成绩。 Alteryx处于自助数据分析运动的最前沿。公司的平台“ Designer”旨在快速发现、准备和分析客户的详细信息。该工具用于易于使用的界面,用户可以连接和清除数据仓库。Alteryx的工具还包括空间文件的数据混合,可以将其附加到其他第三方数据。

  Paxata提供自适应的信息平台,它具有灵活的部署和自助操作。它使分析人员和数据科学家可以收集多个原始数据集,并将它们转换成有价值的信息,这些信息可以立即转换为执行模型训练所需要的格式。该平台是基于所见即所得设计,具有电子表格风格的数据展示,因此用户无需学习新工具。此外,该平台能够提供算法协助以推断所收集数据的含义。 TIBCO软件最近在这个快速发展的领域中崭露头角。它允许用户连接、清理、合并和整理来自不同来源的数据,其中还包括大数据存储。该软件使用户可以通过简单的在线数据整理进行数据分析,并且提供完整的API支持,可以根据自己的个性化需求进行更改。

  也有网友表示,机器学习更像是数据分析,模型的搭建就是构建pipelines。

  文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

  听话听音!OpenAI 践行了这一想法,几个小时前,OpenAI通过官方推特发布了两个崭新的网络,一....

  材料的性能和行为在很大程度上取决于其微观结构,而微观结构又受到制造条件的限制。而对这些关系的洞察方面....

  NumPy是一种通用的数组处理软件包。它提供高性能的多维数组对象和用于处理这些数组的工具。它是用于科....

  赢咖4注册

  在制造行业中,工业4.0(Industry 4.0)不仅仅是一个流行词,它已成为一种新的现实。新型冠....

  如今制造行业流行的是什么?我想,这可少不了“数字孪生”、“工业4.0”、“人工智能(AI)”。..。....

  不知道大家发现没有,这两年苹果在拍照、续航等功能上与高端安卓品牌已经差距不大,甚至还被超越,支撑果粉....

  十年转瞬,Armv9架构终于露出庐山真面目,适用于Arm全系列芯片的Armv9架构,这次的升级瞄准的....

  当发生异常降雨时,污水处理设施被允许向河流中排放未处理过的污水。这是由于雨水和未经处理的污水会给污水....

  对普通人而言轻轻松松的事情对于听障群体可能是很困难的,他们甚至还会因此遭到歧视。在很多场景下,他们无....

  一般的文本分类任务只提供句子或文档级别的情感标签,引入情感词典等先验情感知识可以给情感文本引入更细粒....

  知识图谱嵌入 knowledge graph embedding是将包含实体和关系的知识图谱三元组嵌....

  得益于当今智能手机和笔记本电脑中的面部识别功能,许多人都熟悉面部识别技术的概念。但是,他们可能不知道....

  天文学家花了几个世纪才弄明白的规律,如果从头交给机器学习算法去领悟,能重现被发现吗?

  基于AI的机器学习技术已经超越了基于云的数据中心,因为重要的IoT传感器数据的处理越来越接近数据最初....

  人工智能(AI)工程师拥有机器学习方面的实践经验,通过促进基于数据的决策和构建新的数据驱动的商业模型....

  随着物流和货运组织变得越来越数字化,企业将能够收集越来越多的关于其客户、供应链、交货、车队、司机等方....

  人工智能、数据科学和机器学习都属于同一个领域。问题是,在这种情况下,它们中的哪一个能达到正确的目的。....

  机器学习开始在越来越多的行业中得到应用,但使用机器学习执行任务的软件一直受限于第三方软件商更新模型文....

  模仿学习提供了一种能够使智能体从专家示范中学习如何决策的框架。在学习过程中,智能体无需与专家进行交互....

  无监督域适应( Unsupervised Domain Adaptation,UDA)是一类新兴的机....

  机器学习 (ML) 模型的性能既取决于学习算法,也取决于用于训练和评估的数据。算法的作用已经得到充分....

  或者往轻了说,它是一个混淆概念。往重了说,是用来欺骗大众的流行语,并且流行度非常高。 其实真正的内涵....

  可穿戴科技通常是有帮助的,但很难做到像你最喜欢穿的那件毛衣一样舒适。不过,MIT CSAIL可能会帮....

  我决定写一篇酝酿已久的文章,对那些想了解机器学习的人做一个简单的介绍。不涉及高级原理,只用简单的语言....

  为处理目标数据集仅有部分成对约束信息可用的半监督聚类场景,基于非负矩阵分解(NMF)架构,通过学习给....

  数据查询处理与优化作为数据管理中最具挑战性的问题之直受到广泛关注。传统的查询处理与优化技术在实际使用....

  机器学习的在各领域的广泛应用也促生其在材料领域的应用。它提供了一种革命性的工具,即能从高维数据中发现....

  在线核选择旨在给岀在线核学习毎回合的最优核,是在线核学习的基础性和关键性问题。在线核选择问题可归约为....

  在CVPR 2021中,旷视研究院共入选论文22篇,其中Oral论文2篇,研究领域涵盖激活函数、神经....

  1. 为何需要白平衡? 讨论白平衡,那就要从色温(CCT)谈起,色温顾名思义就是色彩的温度,但是这个....

  研究人员表示,人工智能技术检测到了数百起未处理污水直接排放入英国河流的事件。 科学家们利用机器学习技....

  近日,2020年图灵奖重磅出炉,颁给了哥伦比亚大学计算机科学名誉教授 Alfred Vaino Ah....

  随着电子技术的进步和产业的不断革新,设计的重要性愈发凸显,同时它的复杂程度和工作量也在不断攀升,以满....

  在制造中,生产线中的缺陷检测过程变得越来越智能。深度神经网络集成使计算机系统可以识别诸如刮擦,裂纹,....

  蛋白质亚细胞的定位预测不仅是研究蛋白质结构和功能的重要基础,还对了解某些疾病的发病机理、药物设计与发....

  随着射频识别(RFID)技术的不断发展,其相比全球定位系统(GPS)具有高精度、数据信息量大的优势,....

  强化学习( Reinforcement learning,RL)作为机器学习领域中与监督学习、无监督....

  针对密度峰值聚类算法( Density Peaks( Clustering,DPC)需要人为指定截断....

  2020 年 5 月,赛灵思研究实验室的论文《FINN-R:快速探索量化神经网络的端到端深度学习框架....

  图像修复是计算机视觉领域中极具挑战性的硏究课题。近年来,深度学习技术的发展推动了图像修复性能的显著提....

  Dyret(挪威语中“动物”的意思)是动态测试机器人的首字母缩写。“我们已经展示了让机器人不断调整身....

  Appier 成立于 2012 年,由毕业于斯坦福大学、哈佛大学的游直翰博士创办,他曾在哈佛大学医学....

  据麦姆斯咨询报道,法国AI视觉开发商Prophesee面向光流和目标探测等AI视觉应用,发布了一套关....

  正例未标注分类简称PU分类,由于只有正例样本与未标注样本,传统的分类方法在PU分类中往往效果不甚理想....

  随着 Tableau 2021.1 的发布,我们将在 Tableau 中首次推出 Salesforc....

  近年来研究流簇( Coflow)为单位的调度策略成为改进数据中心网络的新热点。然而现有的信息未知流簇....

  为满足物联网环境下边缘设备对机器学习算法准确、快速以及自适应产生参数的需求,在 DE-ELM的基础上....

  远程监督学习很早之前就被提出来了,但是应用在关系抽取任务上面应该是2009年的一篇论文,作为远程监督....

  例如,房地产、零售和快消公司会在寻找新的选址和推出新产品时利用人口数据。财政部门希望通过宏观经济数据....

  随着人工智能的兴起,机器学习热度不断攀升,机器学习带给我们智能化生活的同时,其本身的安全性问题也逐渐....

  如果你对人工智能和机器学习感兴趣,而且正在积极地规划着自己的程序员职业生涯,那么你肯定面临着一个问题:你应该学习哪些编程...

  人工智能和机器学习如今一直在改变着我们的世界,2020年发生的冠状病毒疫情为这两种技术带来了新的机会和紧迫性,预计在2021年将...

  机器学习的未来 在工业领域采用机器学习 机器学习和大数据 工业人工智能生态系统 ...

相关推荐
  • 赢咖4聚焦博鳌丨百度自造芯片默克进军量子计算?谁能摘取人工智能“皇冠上的明珠”?
  • 赢咖4吴恩达:一个机器学习团队80%的工作应该放在数据准备上
  • 赢咖4注册九章云极DataCanvas引领中国机器学习开发平台市场
  • 赢咖4娱乐开闸蓄水企业机器学习井喷
  • 赢咖4广州市青少年机器人竞赛举行 143支中小学队伍参赛
  • 赢咖4娱乐明略科技机器学习平台的功能亮点与落地实践
  • 赢咖4娱乐Forrester机器学习报告腾讯云跃居第一阵营
  • 赢咖4“机器学习技术”
  • 赢咖4伯明翰大学人工智能与机器学习硕士专业
  • 赢咖4注册简单心理简里里:机器学习在精神医学也有非常大的应用潜力
  • 脚注信息
    版权所有 Copyright(C)2020 星辉娱乐
    网站地图|xml地图|友情链接: 百度一下