文章预览
人工智能开发人员正在迅速利用互联网数据,以训练如ChatGPT背后的大型语言模型。然而,他们面临数据枯竭的挑战,并试图寻找解决之道。 2024年12月11日,Nature发表文章The AI revolution is running out of data. What can researchers do,讲述了他们试图绕过这个问题的方法。 互联网虽是人类知识的宝库,但其资源并非无穷无尽。近十年来,人工智能的飞速发展主要得益于神经网络的扩大及在海量数据上的训练。这种扩展策略对于提升大型语言模型的会话能力和推理能力尤为有效。然而,有专家指出,我们已接近数据规模的极限。这不仅因为计算所需的能源持续攀升,更因为传统数据集已难以满足LLM的训练需求。 Epoch AI的研究员Pablo Villalobos预测, 到2028年,用于训练AI模型的数据集规模预计将与公共在线文本总量持平。 这意味着,在短短四年内,人工智能可能会耗
………………………………