这份精心整理的列表包含920个很棒的开源项目,总共有470万颗星,分为34个类别。所有项目都根据项目质量得分进行排名,该得分是基于从GitHub和不同的包管理器自动收集的各种指标计算得出的。
分类:
Combinedproject-qualityscore
StarcountfromGitHub
Newproject(lessthan6monthsold)
Inactiveproject(6monthsnoactivity)
Deadproject(12monthsnoactivity)
Projectistrendingupordown
Projectwasrecentlyadded
Warning(e.g.missing/riskylicense)
ContributorscountfromGitHub
ForkcountfromGitHub
IssuecountfromGitHub
Lastupdatetimestamponpackagemanager
Downloadcountfrompackagemanager
Numberofdependentprojects
Tensorflowrelatedproject
Sklearnrelatedproject
PyTorchrelatedproject
MxNetrelatedproject
ApacheSparkrelatedproject
Jupyterrelatedproject
PaddlePaddlerelatedproject
Pandasrelatedproject
Jaxrelatedproject
官网:ml-python.best-of.org
入门指南
2024年数据工程入门路线图
6周免费YouTube训练营
所需软件清单
核心学习资源
推荐书籍:《数据工程基础》、《数据密集型应用系统设计》、《机器学习系统设计》等
重要公司和工具分类
工作流程编排:Airflow,Dagster,Prefect等
数据湖/云:Databricks,DeltaLake等
数据仓库:Snowflake,Firebolt
数据质量:dbt,GreatExpectations等
数据集成:Fivetran,Airbyte等
实时数据处理:RisingWave,Striim等
学习资源
技术博客:包括Netflix、Uber、Databricks等公司的工程博客
白皮书:关于数据架构、湖仓一体等主题
播客推荐
新闻通讯
认证课程:Google、Azure、AWS等平台的数据工程认证
社交媒体资源
收录了多位数据工程领域的创作者
ProfTomYeh教授著名的AIbyHand手绘AI系列开源了,基于Excel的神奇操作,用Excel表格做出了堪比动画软件生动效果的AI系列讲解!