今天看啥  ›  专栏  ›  CSDN学习

我用 GPT-4o 试着进行网页抓取,但太贵了!

CSDN学习  · 公众号  ·  · 2024-09-12 18:00

文章预览

作者 | Eduardo Blancas 出品 | CSDN(ID:CSDNnews) 一个月前,OpenAI 在其 API 中新增了结构化输出功能,这意味着 OpenAI 现在能够根据开发者提供的 JSON 模式,准确地生成符合要求的输出结果。我看到了这个功能之后,对此非常感兴趣,因此决定试用一下,并开发了一个 AI 辅助网页抓取工具。本文将总结我的学习成果,也希望对大家有所裨益。 要求 GPT-4o 抓取数据 第一个实验是直接要求 GPT-4o 从 HTML 字符串中提取数据,因此我使用了新的结构化输出功能和以下 Pydantic 模型(https://docs.pydantic.dev/latest/): from typing import List, Dict class ParsedColumn(BaseModel): name: str values: List[str] class ParsedTable(BaseModel): name: str columns: List[ParsedColumn] 使用的 Prompt 是: 你是一名网络爬虫专家。现在给你一张包含表格的 HTML 内容,你必须从中提取结构化数据。 下面是我在解析 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览