新聞分類

科技
互聯(lián)網(wǎng)
- 融資
- 新零售
- 企服
- 共享
- 教育
- 醫(yī)療
- 物聯(lián)網(wǎng)
- 安全
- 智能
- 政策
- 動態(tài)
- 技術(shù)
- 軟件
娛樂
- 電影
- 電視劇
- 綜藝
- 動漫
- 音樂
- 明星
- 網(wǎng)娛
- 韓娛
- 熱點(diǎn)
- 值得買
游戲
- 手游
- 端游
- 頁游
- 主機(jī)
- 公告
- 攻略
體育
- 業(yè)界
- 足球
- 籃球
- 彩票
汽車
- 車訊
- 新車
- 評測
時尚
- 奢侈品
- 時裝
- 美妝
- 美體
健康
- 疾病
- 兩性
- 健美
- 醫(yī)美
- 養(yǎng)生
- 新冠
旅游
母嬰
- 孕產(chǎn)
- 哺育
- 早教
- 親子
- 萌娃
房產(chǎn)
- 資訊
- 家居
- 家電
教育
- 高考
- 考研
- 公考
- 留學(xué)
- 高校
- 小初高
寵物
- 資訊
- 百科
- 訓(xùn)練
- 常識
- 寵物用品
其它
造數(shù)

firecrawl.dev在一個平臺完成Search、Crawl的的操作

技術(shù) PRO 作者：angelinababy 2025-06-06 06:54

在線爬蟲平臺firecrawl.dev?提供了一個search接口，可以讓我們直接在一個平臺完成Search、Crawl的的操作。

我為什么會對這個接口感興趣呢？因?yàn)橐尨竽Ｐ徒尤刖W(wǎng)絡(luò)，必須得要有個搜索的功能??！而且Firecrawl是搜索后能直接返回頁面的內(nèi)容！

搜索與爬取整合：通過一個接口完成搜索和爬取操作。
支持各種搜索參數(shù)：接入Google搜索，可以使用Google搜索參數(shù)優(yōu)化查詢結(jié)果。
AI 提取功能：能夠?qū)λ阉骱笈廊〉降膬?nèi)容進(jìn)行信息提取，輸出自定義的格式。

Firecrawl 的 API Doc 中，對這個search接口的使用方法介紹很是簡略，經(jīng)過我研讀源代碼、大量嘗試，總結(jié)出了這篇文章：一次性讓你學(xué)會使用 Firecrawl的搜索接口，包括在搜索中結(jié)合 Extract 直接匯總結(jié)果！

Note1.?Firecrawl的基礎(chǔ)用法請參考這篇文章《來玩一下在線爬蟲API：Firecrawl》，下面的例子都是根據(jù)我這篇文章的用法，在Postman中嘗試的。

Note2.?通過閱讀源碼，我發(fā)現(xiàn)Firecrawl竟然是用的?searchapi.io?，可以看我這篇文章了解什么是 searchapi：《讓大模型“聯(lián)網(wǎng)”的第一步？手把手教你調(diào)用搜索API！》

Firecrawl search 接口的url是：

https://api.firecrawl.dev/v1/search?

1. 先來試一下最簡單的用法

{????"query":?"LLM?humanlike?Prompt",????"limit":?5,????"timeout":?300000,????"scrapeOptions":?{????????"formats":?["markdown"],????????"onlyMainContent":?true,????????"removeBase64Images":?true????}}

query：我們要查詢的關(guān)鍵字。

limit：限定要查詢的網(wǎng)頁條數(shù)，默認(rèn)值是5。注意這里的條數(shù)是算到使用次數(shù)里面的，也就說limit是10條，你這次的firecrawl的使用次數(shù)（Credit Usage）就是10！

timeout：調(diào)用接口后的等待時間，單位是ms，默認(rèn)值是6000，也就是1分鐘。畢竟需要先搜索，然后爬取頁面，所以有時候接口的調(diào)用時間會有點(diǎn)長，我們可以稍微配置長一點(diǎn)的時間。

scrapeOptions：用來對搜索返回的內(nèi)容進(jìn)行處理的配置。

scrapeOptions.formats: 用來指定返回的格式。比如例子中我期望返回的是markdowm。

scrapeOptions.onlyMainContent:?在處理搜索結(jié)果的時候，爬蟲只需要爬取頁面中的主要內(nèi)容。

scrapeOptions.removeBaseImages:?不要爬取圖片，因?yàn)閳D片的base64 會占用很多文本，對我們后續(xù)處理不友好。

調(diào)用后返回的結(jié)果如下：

2. 進(jìn)階的用法，使用Firecrawl參數(shù)限定查詢結(jié)果

Firecrawl search 接口支持下面幾個參數(shù)，官方文檔詳細(xì)給出怎么用，不過我還是一個一個查出來了！因?yàn)檫@些參數(shù)其實(shí)就是 google 的搜索API支持的參數(shù)……

tbs: Time-based search parameter?的縮寫，用來限定search的時間段。常用的幾個值如下表：

lang：指定搜索目標(biāo)的語言，比如 en 英語、zh-cn 中文、ja 英文。要注意的是這個參數(shù)只有在搜索條件也包含對應(yīng)的語言的關(guān)鍵字的時候才生效的。

country：搜索目標(biāo)的城市編碼，比如 us 美國、gb 英國、cn 中國、jp 日本。這個用來限定搜索的網(wǎng)頁是在哪個國家的。

location：搜索的地理位置。這個不是目標(biāo)網(wǎng)站的位置限定，是向 google傳遞你的地理位置！這樣google會根據(jù)你的地理位置返回個性化的搜索結(jié)果。比如本地的天氣、商家推薦之類的?？梢詡鲊?、城市、地標(biāo)、省份，google自動會進(jìn)行模糊匹配。

下面是一個完整的范例：

{????"query":?"LLM?人性化?Prompt",????"limit":?3,????"timeout":?300000,????"tbs":?"qdr:y",????"lang":?"zh-cn",????"country":?"cn",????"location":?"廣東",????"scrapeOptions":?{????????"formats":?["markdown"],????????"onlyMainContent":?true,????????"removeBase64Images":?true????}}

3. 高階用法，使用google支持的參數(shù)

現(xiàn)在來到Google搜索小妙招啦！下面和大家一起學(xué)習(xí)經(jīng)常用搜索的同學(xué)肯定要掌握的搜索參數(shù)！

關(guān)鍵字完整包含限定：比如你要搜索一個短語，你可以用雙引號?"key word"?包住這個短語，這樣就是完整搜索模式了。

剔除關(guān)鍵字：和上面的相反，如果要排除掉某些內(nèi)容，我們可以用?-keyword?來告訴Google搜索結(jié)果不要出現(xiàn)那些內(nèi)容。

剔除指定的網(wǎng)站：用?-site:網(wǎng)址?來告訴Google我不想看到某個網(wǎng)站里面的內(nèi)容。

限定搜索的網(wǎng)址：如果要限定搜索對象在某些特定的網(wǎng)站內(nèi)，我們可以用?site:域名?限定搜索結(jié)果的域名，或者用?inurl:name?限定搜索結(jié)果的網(wǎng)址包含某個字符串，可以用?allinurl:xxx yyy?指定多個字符串。

限定搜索的網(wǎng)站標(biāo)題：我們可以限定只找包含限定關(guān)鍵字在標(biāo)題里面網(wǎng)址，用?intitle:keyword、allintitle:keyword1 keyword2。

更多搜索小妙招，請給我點(diǎn)個贊，我會開另外一篇文章來講，敬請期待！

4. 更高階的用法，用LLM幫我抽取關(guān)鍵信息！

在前面的例子中，我們可以看到搜索后爬回來的網(wǎng)頁內(nèi)容會有很多無效的內(nèi)容，比如網(wǎng)頁中的圖片地址、一些網(wǎng)站的提示等等。

大家一定會有想法：如果能夠只爬取其中有用的內(nèi)容該多好呀！

那么現(xiàn)在讓我們來看重頭戲：讓 Firecrawl 接入的的AI幫我們總結(jié)爬取到的頁面內(nèi)容！

使用方法也很簡單，我們將 scrape（輸出）的格式改成 ‘extract’，然后給出我們的要求：

{????"query":?"LLM?人性化?Prompt?-site:csdn.net",????"limit":?3,????"timeout":?60000,????"lang":?"zh-cn",????"tbs":?"qdr:y",????"scrapeOptions":?{????????"formats":?["extract"],????????"extract":?{????????????"prompt":?"Please?just?give?me?the?content?related?to?the?query?key?words?in?the?main?content,?remove?all?the?links?and?images.?Format?the?mainContent?as?a?more?readable?markdown"????????}????}}

scrapeOptions.extract: 這個下面開始定義要AI幫我們怎么處理搜索的結(jié)果。

scrapeOptions.extract.prompt：大模型的指令

scrapeOptions.extract.schema：可以自己定義輸出的json格式，比如例子中，我期望輸出中的json包含兩個字段：main_content ?和 total_wording。實(shí)測這個字段并不一定需要出現(xiàn)在我們給出的prompt中， FireCrawl會自己使用AI解析后給出相應(yīng)的格式。

最后輸出的結(jié)果大概這樣的：

可惜的是 search 中的extract 只能輸出 json 格式，不過我們可以在prompt中要求給出 markdown 格式的內(nèi)容，像我給出的例子那樣。

因?yàn)镻ostman不支持解析 Markdown 格式，所以一眼看上去有點(diǎn)平平無奇。但是各位讀者都是很有經(jīng)驗(yàn)的了，相信一眼就可以看出，這個 search+extract的功能肯定對我們后續(xù)學(xué)習(xí)了解大模型聯(lián)網(wǎng)很有用的！

0XU.CN