文章预览
读论文时如何辨别出“好东西” 本文是编者阅读Abhishaike Mahajan的博客文章《Five things to keep in mind while reading biology ML papers》,再结合自身的一些认识,提炼总结的阅读生物学领域AI论文的一些“注意事项”。 正文 1 . Benchmark很少能反映真实情况 盲目百分百相信Benchmark测试(例如:MoleculeNet、FLIP)上的结果是不对的。请记住,这些Benchmark创建出来是为了对比不同模型的真实能力,纯粹刷榜与实际可靠的模型鱼龙混杂,让人眼花撩乱。这时候就需要火眼金睛学会甄别出“ 好东西 ”。编者曾看到这种模型,换个数据集微调GPT,作者实验说它的模型在蛋白结构预测、功能预测、骨架设计、序列设计等多项任务上SOTA,这种无敌选手大概率就是“ 坏东西 ”。 如果Benchmark的数据集偏小,多样性不够,分布太集中,则更不太能测试出模型的能力,因为在跨数据
………………………………