今天看啥  ›  专栏  ›  AI科技论谈

数据科学最佳工具全面比较:Polars、DuckDB、Pandas、Modin、Ponder、Fugue、Daft(下)

AI科技论谈  · 公众号  ·  · 2025-04-18 18:00
    

文章预览

数据科学最佳工具全面比较。 长按关注《AI科技论谈》 本篇我们介绍 Modin 、 Ponder 、 Fugue 和 Daft 。 五、Modin   Modin是pandas的直接替代品,能够扩展到多核和分布式集群环境。它基于Ray、Dask和DuckDB构建,是在不重写代码的情况下扩展pandas功能的有效方式。 下面是之前用pandas实现的相同示例,但这次使用Modin: import  modin.pandas  as  pd import  glob csv_files = glob.glob( "dataframes/2023*.csv" ) dfs = [pd.read_csv(f)  for  f  in  csv_files] orders = pd.concat(dfs, axis= 0 , ignore_index= True ) products = pd.read_csv( "dataframes/products.csv" ) df = orders.merge(products, on= "product_id" , how= "left" ) top = (     df.groupby( "product_id" , as_index= False )[ "total" ]     .sum()     .sort_values( "total" , ascending= False )     .head( 10 ) ) top.to_json( "bestsellers_modin.json" , orient= "records" ) 我们只需要将导入语句从 import pandas as pd 改为 import ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览