如果你想用 Python 自动抓取网站数据，请使用“autosc-20241102194734

2024-11-02 19:47
本条微博链接

如果你想用 Python 自动抓取网站数据，请使用“autoscraper” 💡

它几乎是神奇的🪄 - 您无需手动编写抓取逻辑，只需提供一些您想要抓取的示例值，“autoscraper”就会为您推断出抓取规则。

它学习抓取规则并返回相似的元素。然后，您可以将这个学习到的对象与新 URL 结合使用，以获取这些新页面的相似内容或完全相同的元素。

`autoscraper` 不需要像传统抓取库那样详细的 XPath 或 CSS 选择器。相反，它通过从您提供的示例中学习来自动化模式识别过程。

让我们设计一个示例，我们将从一个热门新闻网站上抓取最新的头条新闻。（免责声明：确保您拥有抓取所需网站的合法权利；抓取某些网站可能违反其服务条款）。

假设我们想从“BBC 新闻”中抓取最新的头条新闻（仅用于演示目的）。

记得将“BBC 新闻标题示例”替换为 BBC 新闻页面的实际标题，以便模型可以从中学习。运行脚本后，您应该会看到抓取的标题列表。