文章预览
作者 | Eduardo Blancas 出品 | CSDN(ID:CSDNnews) 一个月前,OpenAI 在其 API 中新增了结构化输出功能,这意味着 OpenAI 现在能够根据开发者提供的 JSON 模式,准确地生成符合要求的输出结果。我看到了这个功能之后,对此非常感兴趣,因此决定试用一下,并开发了一个 AI 辅助网页抓取工具。本文将总结我的学习成果,也希望对大家有所裨益。 要求 GPT-4o 抓取数据 第一个实验是直接要求 GPT-4o 从 HTML 字符串中提取数据,因此我使用了新的结构化输出功能和以下 Pydantic 模型(https://docs.pydantic.dev/latest/): from typing import List, Dict class ParsedColumn(BaseModel): name: str values: List[str] class ParsedTable(BaseModel): name: str columns: List[ParsedColumn] 使用的 Prompt 是: 你是一名网络爬虫专家。现在给你一张包含表格的 HTML 内容,你必须从中提取结构化数据。 下面是我在解析
………………………………