文章预览
最近,拥有数十亿个参数的大型神经网络引起了大量关注,这是理所当然的。通过将大量参数与transformer和扩散等强大的架构相结合,神经网络能够完成惊人的壮举。 但是,即使是小型网络也可能出奇地有效 - 尤其是当它们是专门为特定用例设计的。作为我之前所做的一些工作的一部分,我正在训练小型( < 1000 个参数)网络来生成序列到序列的映射并执行其他简单的逻辑任务。我希望模型尽可能小而简单,目标是构建其内部状态的小型交互式可视化。 在非常简单的问题上取得成功后,我尝试训练神经网络执行二进制加法。网络将接收两个 8 位无符号整数的位作为输入(将位转换为浮点数,二进制 0 为 -1,二进制 1 为 +1),并有望产生正确添加的输出,包括处理溢出包装。 二进制训练示例: 01001011 + 11010110 -> 00100001 作为 NN 训练的输入/输出向
………………………………