文章预览
AI研究从2006年李飞飞的ImageNet项目开始,依赖互联网海量数据进行训练。然而,随着生成式AI的崛起,互联网上高质量文本数据即将枯竭,被称为“数据墙”。未来,AI公司需要更多高质量数据来源,但这些数据资源正受到版权和法律限制。 为应对数据枯竭,AI实验室开始注重数据质量,通过筛选和排序最大化模型学习效果。一些模型现在不仅处理文本,还处理图像、视频和音频文件。 使用合成数据是另一种解决方案,DeepMind的AlphaGo Zero通过自我对弈学习围棋是一个典型例子。 版权问题使得数据获取变得复杂,AI公司声称合理使用,但受到版权持有者的反对。为了保持模型的先进性,后期训练变得更加重要,标注公司通过提供高质量训练数据获利。 未来的挑战在于找到新的数据资源或可持续的替代品,以支持AI的持续发展。 资料来源: https://www.econo
………………………………