跳转至

pandas

安装:pip install pandas

加载 JSONL:

from io import StringIO
import pandas as pd

# 打开文件
f = open(r"D:\downloads\输出风险.jsonl", "r", encoding="utf-8")

# 加载文件内容,得到 DataFrame(df/数据框)
df = pd.read_json(StringIO(f.read()), lines=True)

其他操作:

# 查看前几行
df.head()

# 查看末尾几行
df.tail()

# loc() vs iloc()

# 定位某行
df.iloc[1]

# 获取字段
df.iloc[1]["评测问题"].split("|||")[1]

# 根据字段的值筛选记录(布尔索引),得到新的 df
df[df["备注"]=="011b9b8a3a079c4e01de48af92aa2923.jpg"]

# 根据字段的值筛选记录(query),得到新的 df
df.query("备注 == '011b9b8a3a079c4e01de48af92aa2923.jpg'")

# 筛选包含XXX的行,得到新的 df
df[df['备注'].str.contains('jpg', case=False)]

# 筛选以XXX结尾的行,得到新的 df
df[df['备注'].str.endswith('jpg')]

# 筛选以XXX开头的行,得到新的 df
df[df['备注'].str.startswith('jpg')]