文章预览
数据科学界的速度之王诞生了! Lightning AI的CEO William Falcon 分享了一个令人振奋的消息: 使用RAPIDS cuDF,Pandas操作速度可以提升150倍 ! 这个消息将让数据科学家们兴奋不已。 神奇的cuDF加速 cuDF是一个基于 Apache Arrow列式内存格式 构建的Python GPU DataFrame库,它提供了与Pandas类似的API接口。 令人惊喜的是,它现在提供了 pandas加速器模式 (cudf.pandas),让你 无需修改任何代码 就能享受GPU加速带来的性能提升。 让我们通过一个实际案例来感受这惊人的速度: # 读取纽约停车违规数据 df = pd.read_parquet( "/tmp/nyc_parking_violations_2022.parquet" , columns=[ "Registration State" , "Violation Description" , "Vehicle Body Type" , "Issue Date" , "Summons Number" ] ) # 随机查看10行数据 df.sample( 10 ) 这段简单的数据读取代码在普通Pandas下需要 5.96秒 ,而使用cuDF加速后只需要 1.
………………………………