pandas¶
安装:pip install pandas
加载 JSONL:
from io import StringIO
import pandas as pd
# 打开文件
f = open(r"D:\downloads\输出风险.jsonl", "r", encoding="utf-8")
# 加载文件内容,得到 DataFrame(df/数据框)
df = pd.read_json(StringIO(f.read()), lines=True)
其他操作:
# 查看前几行
df.head()
# 查看末尾几行
df.tail()
# loc() vs iloc()
# 定位某行
df.iloc[1]
# 获取字段
df.iloc[1]["评测问题"].split("|||")[1]
# 根据字段的值筛选记录(布尔索引),得到新的 df
df[df["备注"]=="011b9b8a3a079c4e01de48af92aa2923.jpg"]
# 根据字段的值筛选记录(query),得到新的 df
df.query("备注 == '011b9b8a3a079c4e01de48af92aa2923.jpg'")
# 筛选包含XXX的行,得到新的 df
df[df['备注'].str.contains('jpg', case=False)]
# 筛选以XXX结尾的行,得到新的 df
df[df['备注'].str.endswith('jpg')]
# 筛选以XXX开头的行,得到新的 df
df[df['备注'].str.startswith('jpg')]