Python 数据科学生态

Python 拥有全球最丰富的数据科学生态系统之一。

核心库一览

库	用途	官网
NumPy	数值计算基础库	numpy.org
Pandas	数据分析利器	pandas.pydata.org
Matplotlib	数据可视化	matplotlib.org
Seaborn	统计可视化	seaborn.pydata.org
Scikit-learn	机器学习	scikit-learn.org
Jupyter	交互式编程	jupyter.org

环境准备

# 使用 pip
pip install numpy pandas matplotlib seaborn scikit-learn jupyter

# 使用 conda（推荐）
conda create -n datascience python=3.11
conda activate datascience
conda install numpy pandas matplotlib scikit-learn

第一个数据分析流程

1. 数据加载

import pandas as pd
df = pd.read_csv('sales.csv')
print(df.head())
print(df.info())

2. 数据清洗

# 处理缺失值
df = df.dropna()
df = df.fillna(df.mean())

# 去除重复
df = df.drop_duplicates()

# 类型转换
df['date'] = pd.to_datetime(df['date'])

3. 数据探索

# 基本统计
df['price'].mean()
df.groupby('category')['sales'].sum()

# 相关性分析
df.corr()

4. 数据可视化

import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme()
df['price'].hist(bins=30)
plt.show()

Python数据科学生态

Python 数据科学生态

核心库一览

环境准备

第一个数据分析流程

1. 数据加载

2. 数据清洗

3. 数据探索

4. 数据可视化