黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標(biāo)簽
我們會為你匹配適合你的網(wǎng)址導(dǎo)航

    確認(rèn) 跳過

    跳過將刪除所有初始化信息

    您的位置:0XUCN > 資訊 > 技術(shù)
    新聞分類

    firecrawl.dev在一個平臺完成Search、Crawl的的操作

    技術(shù) PRO 作者:angelinababy 2025-06-06 06:54

    在線爬蟲平臺firecrawl.dev?提供了一個search接口,可以讓我們直接在一個平臺完成Search、Crawl的的操作。

    我為什么會對這個接口感興趣呢?因?yàn)橐尨竽P徒尤刖W(wǎng)絡(luò),必須得要有個搜索的功能??!而且Firecrawl是搜索后能直接返回頁面的內(nèi)容!
    • 搜索與爬取整合:通過一個接口完成搜索和爬取操作。

    • 支持各種搜索參數(shù):接入Google搜索,可以使用Google搜索參數(shù)優(yōu)化查詢結(jié)果。

    • AI 提取功能:能夠?qū)λ阉骱笈廊〉降膬?nèi)容進(jìn)行信息提取,輸出自定義的格式。

    Firecrawl 的 API Doc 中,對這個search接口的使用方法介紹很是簡略,經(jīng)過我研讀源代碼、大量嘗試,總結(jié)出了這篇文章:一次性讓你學(xué)會使用 Firecrawl的搜索接口,包括在搜索中結(jié)合 Extract 直接匯總結(jié)果!

    Note1.?Firecrawl的基礎(chǔ)用法請參考這篇文章 《來玩一下在線爬蟲API:Firecrawl》,下面的例子都是根據(jù)我這篇文章的用法,在Postman中嘗試的。
    Note2.?通過閱讀源碼,我發(fā)現(xiàn)Firecrawl竟然是用的?searchapi.io?,可以看我這篇文章了解什么是 searchapi:《讓大模型“聯(lián)網(wǎng)”的第一步?手把手教你調(diào)用搜索API!》


    Firecrawl search 接口的url是:
    https://api.firecrawl.dev/v1/search?

    1. 先來試一下最簡單的用法

      {????"query":?"LLM?humanlike?Prompt",????"limit":?5,????"timeout":?300000,????"scrapeOptions":?{????????"formats":?["markdown"],????????"onlyMainContent":?true,????????"removeBase64Images":?true????}}

      • query:我們要查詢的關(guān)鍵字。
      • limit:限定要查詢的網(wǎng)頁條數(shù),默認(rèn)值是5。注意這里的條數(shù)是算到使用次數(shù)里面的,也就說limit是10條,你這次的firecrawl的使用次數(shù)(Credit Usage)就是10!
      • timeout:調(diào)用接口后的等待時間,單位是ms,默認(rèn)值是6000,也就是1分鐘。畢竟需要先搜索,然后爬取頁面,所以有時候接口的調(diào)用時間會有點(diǎn)長,我們可以稍微配置長一點(diǎn)的時間。
      • scrapeOptions:用來對搜索返回的內(nèi)容進(jìn)行處理的配置。
        • scrapeOptions.formats: 用來指定返回的格式。比如例子中我期望返回的是markdowm。
        • scrapeOptions.onlyMainContent:?在處理搜索結(jié)果的時候,爬蟲只需要爬取頁面中的主要內(nèi)容。
        • scrapeOptions.removeBaseImages:?不要爬取圖片,因?yàn)閳D片的base64 會占用很多文本,對我們后續(xù)處理不友好。

      調(diào)用后返回的結(jié)果如下:
      2. 進(jìn)階的用法,使用Firecrawl參數(shù)限定查詢結(jié)果
      Firecrawl search 接口支持下面幾個參數(shù),官方文檔詳細(xì)給出怎么用,不過我還是一個一個查出來了!因?yàn)檫@些參數(shù)其實(shí)就是 google 的搜索API支持的參數(shù)……
      • tbs: Time-based search parameter?的縮寫,用來限定search的時間段。常用的幾個值如下表:
      • lang:指定搜索目標(biāo)的語言,比如 en 英語、zh-cn 中文、ja 英文。要注意的是這個參數(shù)只有在搜索條件也包含對應(yīng)的語言的關(guān)鍵字的時候才生效的。
      • country: 搜索目標(biāo)的城市編碼,比如 us 美國、gb 英國、cn 中國、jp 日本。這個用來限定搜索的網(wǎng)頁是在哪個國家的。
      • location:搜索的地理位置。這個不是目標(biāo)網(wǎng)站的位置限定,是向 google傳遞你的地理位置!這樣google會根據(jù)你的地理位置返回個性化的搜索結(jié)果。比如本地的天氣、商家推薦之類的??梢詡鲊?、城市、地標(biāo)、省份,google自動會進(jìn)行模糊匹配。

      下面是一個完整的范例:

        {????"query":?"LLM?人性化?Prompt",????"limit":?3,????"timeout":?300000,????"tbs":?"qdr:y",????"lang":?"zh-cn",????"country":?"cn",????"location":?"廣東",????"scrapeOptions":?{????????"formats":?["markdown"],????????"onlyMainContent":?true,????????"removeBase64Images":?true????}}

        3. 高階用法,使用google支持的參數(shù)
        現(xiàn)在來到Google搜索小妙招啦!下面和大家一起學(xué)習(xí)經(jīng)常用搜索的同學(xué)肯定要掌握的搜索參數(shù)!
        • 關(guān)鍵字完整包含限定:比如你要搜索一個短語,你可以用雙引號?"key word"?包住這個短語,這樣就是完整搜索模式了。
        • 剔除關(guān)鍵字:和上面的相反,如果要排除掉某些內(nèi)容,我們可以用?-keyword?來告訴Google搜索結(jié)果不要出現(xiàn)那些內(nèi)容。
        • 剔除指定的網(wǎng)站:用?-site:網(wǎng)址?來告訴Google我不想看到某個網(wǎng)站里面的內(nèi)容。
        • 限定搜索的網(wǎng)址:如果要限定搜索對象在某些特定的網(wǎng)站內(nèi),我們可以用?site:域名?限定搜索結(jié)果的域名,或者用?inurl:name?限定搜索結(jié)果的網(wǎng)址包含某個字符串,可以用?allinurl:xxx yyy?指定多個字符串。
        • 限定搜索的網(wǎng)站標(biāo)題:我們可以限定只找包含限定關(guān)鍵字在標(biāo)題里面網(wǎng)址,用?intitle:keyword、allintitle:keyword1 keyword2。
        更多搜索小妙招,請給我點(diǎn)個贊,我會開另外一篇文章來講,敬請期待!

        4. 更高階的用法,用LLM幫我抽取關(guān)鍵信息!
        在前面的例子中,我們可以看到搜索后爬回來的網(wǎng)頁內(nèi)容會有很多無效的內(nèi)容,比如網(wǎng)頁中的圖片地址、一些網(wǎng)站的提示等等。
        大家一定會有想法:如果能夠只爬取其中有用的內(nèi)容該多好呀!
        那么現(xiàn)在讓我們來看重頭戲:讓 Firecrawl 接入的的AI幫我們總結(jié)爬取到的頁面內(nèi)容!
        使用方法也很簡單,我們將 scrape(輸出)的格式改成 ‘extract’,然后給出我們的要求:

          {????"query":?"LLM?人性化?Prompt?-site:csdn.net",????"limit":?3,????"timeout":?60000,????"lang":?"zh-cn",????"tbs":?"qdr:y",????"scrapeOptions":?{????????"formats":?["extract"],????????"extract":?{????????????"prompt":?"Please?just?give?me?the?content?related?to?the?query?key?words?in?the?main?content,?remove?all?the?links?and?images.?Format?the?mainContent?as?a?more?readable?markdown"????????}????}}

          • scrapeOptions.extract: 這個下面開始定義要AI幫我們怎么處理搜索的結(jié)果。
            • scrapeOptions.extract.prompt:大模型的指令
            • scrapeOptions.extract.schema:可以自己定義輸出的json格式,比如例子中,我期望輸出中的json包含兩個字段:main_content ?和 total_wording。實(shí)測這個字段并不一定需要出現(xiàn)在我們給出的prompt中, FireCrawl會自己使用AI解析后給出相應(yīng)的格式。

          最后輸出的結(jié)果大概這樣的:
          可惜的是 search 中的extract 只能輸出 json 格式,不過我們可以在prompt中要求給出 markdown 格式的內(nèi)容,像我給出的例子那樣。
          因?yàn)镻ostman不支持解析 Markdown 格式,所以一眼看上去有點(diǎn)平平無奇。但是各位讀者都是很有經(jīng)驗(yàn)的了,相信一眼就可以看出,這個 search+extract的功能肯定對我們后續(xù)學(xué)習(xí)了解大模型聯(lián)網(wǎng)很有用的!

          0XU.CN

          [超站]友情鏈接:

          四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
          關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

          圖庫
          公眾號 關(guān)注網(wǎng)絡(luò)尖刀微信公眾號
          隨時掌握互聯(lián)網(wǎng)精彩
          贊助鏈接