显示所有列
import pandas as pd |
df有两列索引a/b,两列数据列c/d。
- 将df按照a分组,组内按照b从小到大排序,若c列前一行值不为nan则将c列按照前一个值填充
df_sorted = df.sort_index(level=['a', 'b']) |
- 前后遍历补充marketcap值
def ffill_group(group): |
- 删除重复索引的行,保留第一次出现的行
df_no_duplicates = df.loc[~df.index.duplicated(keep='first')] |
- 假设a列是时间类型,计算每个 b 分组内 c 列的每日总和
# 按天分组并聚合 |
- 如果 df2 中没有对应的索引,df1 中的原值会被保留
# 使用 update 方法更新 df1 |
- 筛选出某一行
# 1. 使用完整的索引值 |
- 左连接
# 使用 merge 函数进行基于索引的左连接 |
- 打印不同
index_diff = set(df1.index).symmetric_difference(set(df2.index)) |
读取txt为csv
import pandas as pd |
df打印有空值的行
na_df = df[df.isnull().any(axis=1)] |
df改变列名
fr = pd.read_csv('raw_data/csv/fundingrate.csv') |
df时间戳列改日期
df['timestamp'] = df['timestamp'].astype(int) |
df遍历所有行判断某列是否为NaN
for index,row in df.iterrows(): |