Python 数据科学生态

Python 拥有全球最丰富的数据科学生态系统之一。

核心库一览

用途 官网
NumPy 数值计算基础库 numpy.org
Pandas 数据分析利器 pandas.pydata.org
Matplotlib 数据可视化 matplotlib.org
Seaborn 统计可视化 seaborn.pydata.org
Scikit-learn 机器学习 scikit-learn.org
Jupyter 交互式编程 jupyter.org

环境准备

# 使用 pip
pip install numpy pandas matplotlib seaborn scikit-learn jupyter

# 使用 conda(推荐)
conda create -n datascience python=3.11
conda activate datascience
conda install numpy pandas matplotlib scikit-learn

第一个数据分析流程

1. 数据加载

import pandas as pd
df = pd.read_csv('sales.csv')
print(df.head())
print(df.info())

2. 数据清洗

# 处理缺失值
df = df.dropna()
df = df.fillna(df.mean())

# 去除重复
df = df.drop_duplicates()

# 类型转换
df['date'] = pd.to_datetime(df['date'])

3. 数据探索

# 基本统计
df['price'].mean()
df.groupby('category')['sales'].sum()

# 相关性分析
df.corr()

4. 数据可视化

import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme()
df['price'].hist(bins=30)
plt.show()