Python 数据科学生态
Python 拥有全球最丰富的数据科学生态系统之一。
核心库一览
| 库 | 用途 | 官网 |
|---|---|---|
| NumPy | 数值计算基础库 | numpy.org |
| Pandas | 数据分析利器 | pandas.pydata.org |
| Matplotlib | 数据可视化 | matplotlib.org |
| Seaborn | 统计可视化 | seaborn.pydata.org |
| Scikit-learn | 机器学习 | scikit-learn.org |
| Jupyter | 交互式编程 | jupyter.org |
环境准备
# 使用 pip
pip install numpy pandas matplotlib seaborn scikit-learn jupyter
# 使用 conda(推荐)
conda create -n datascience python=3.11
conda activate datascience
conda install numpy pandas matplotlib scikit-learn
第一个数据分析流程
1. 数据加载
import pandas as pd
df = pd.read_csv('sales.csv')
print(df.head())
print(df.info())
2. 数据清洗
# 处理缺失值
df = df.dropna()
df = df.fillna(df.mean())
# 去除重复
df = df.drop_duplicates()
# 类型转换
df['date'] = pd.to_datetime(df['date'])
3. 数据探索
# 基本统计
df['price'].mean()
df.groupby('category')['sales'].sum()
# 相关性分析
df.corr()
4. 数据可视化
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme()
df['price'].hist(bins=30)
plt.show()
