长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态,分享Python、机器学习等技术文章。回复机器学习有惊喜资料。
今天看啥  ›  专栏  ›  机器学习算法与Python实战

90%的机器学习模型都毫无价值

机器学习算法与Python实战  · 公众号  ·  · 2024-08-11 19:18

主要观点总结

文章讨论了机器学习模型在生产环境中面临的问题和挑战,包括数据科学家工作的效率问题、企业采用机器学习技术的难题、数据访问的难度、IT和数据科学的脱节、机器学习模型面临的挑战、重复工作的问题、高管认可度的问题以及跨语言和框架支持的问题等。文章指出,企业在尝试部署机器学习模型时需要有耐心,并从简单的项目开始,跨职能团队协作,利用第三方帮助加速过程,并注重经验积累。

关键观点总结

关键观点1: 机器学习模型投入生产的困难

文章指出大约90%的机器学习模型从未投入生产,数据科学家的工作只有十分之一能够真正产出对公司有用的东西。

关键观点2: 企业尚未准备好采用机器学习

领导支持并不意味着投入更多的钱就能成功,企业需要了解机器学习模型的作用并加快步伐建立统一的数据结构。

关键观点3: 数据访问难度大

许多公司存在数据筒仓化问题,数据科学家经常无法获得他们需要的数据。企业需要建立统一的数据结构来应对这些问题。

关键观点4: IT、数据科学和工程的脱节

公司需要各部门间的沟通以调整目标并减少沟通困难。此外,工程师需要了解数据科学家的工作细节以避免沟通错误。

关键观点5: 机器学习模型面临的挑战

模型在大环境中的工作表现难以预测,可能存在硬件或云存储限制、模块有效性降低和数据获取困难等问题。

关键观点6: 重复工作的问题

在部署机器学习模型的道路上存在重复工作的问题,这会浪费时间和资源并导致混乱。有效的沟通对于模型的正常运行至关重要。

关键观点7: 高管认可度的问题

虽然技术高管相信人工智能的力量,但并非所有想法都会得到他们的支持。数据科学家需要提高业务技能并与高管进行对话。

关键观点8: 跨语言和框架支持的不足

由于机器学习模型仍处于起步阶段,不同语言和框架之间存在差距。工具如TFX、Mlflow和Kubeflow正在出现以弥补这些不足。

关键观点9: 版本控制和再现的挑战

机器学习模型版本控制尚未有可行的方法。数据科学家需要跟踪所做的任何更改并确保数据集不会随时间漂移。

关键观点10: 建议和结论

文章建议企业从简单的项目开始尝试部署机器学习模型,跨职能团队协作并利用第三方帮助加速过程。最后指出革命性的发展需要时间,企业需要耐心并注重经验积累。


文章预览

作者 | Rhea Moutafis 译者 | 平川(From: InfoQ)  策划 | 陈思 时代变幻莫测,仅仅增加客户体验流畅度和沉浸感并不能减轻企业的压力。在这种情况下,投入数十亿美元开发可以改进产品的机器学习模型就可以理解了。但有一个问题。公司不能只是把钱砸在数据科学家和机器学习工程师身上,就希望可以有奇迹发生。据 VentureBeat 报道,大约 90% 的机器学习模型从未投入生产。换句话说, 数据科学家的工作只有十分之一能够真正产出对公司有用的东西 。 大多数机器学习模型从未部署。图片由作者提供。 时代变幻莫测,仅仅增加客户体验 流畅度和沉浸感并不能减轻企业的压力。 在这种情况下,投入数十亿美元 开发可以改进产品的机器学习模型就可以理解了。 但有一个问题。公司不能只是把钱砸在数据科学家和机器学习工程师身上,就希望可以有奇迹 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览