
firecrawl.dev在一個平臺完成Search、Crawl的的操作
在線爬蟲平臺firecrawl.dev?提供了一個search接口,可以讓我們直接在一個平臺完成Search、Crawl的的操作。
搜索與爬取整合:通過一個接口完成搜索和爬取操作。
支持各種搜索參數(shù):接入Google搜索,可以使用Google搜索參數(shù)優(yōu)化查詢結(jié)果。
AI 提取功能:能夠?qū)λ阉骱笈廊〉降膬?nèi)容進(jìn)行信息提取,輸出自定義的格式。
{????"query":?"LLM?humanlike?Prompt",????"limit":?5,????"timeout":?300000,????"scrapeOptions":?{????????"formats":?["markdown"],????????"onlyMainContent":?true,????????"removeBase64Images":?true????}}
query:我們要查詢的關(guān)鍵字。
limit:限定要查詢的網(wǎng)頁條數(shù),默認(rèn)值是5。注意這里的條數(shù)是算到使用次數(shù)里面的,也就說limit是10條,你這次的firecrawl的使用次數(shù)(Credit Usage)就是10!
timeout:調(diào)用接口后的等待時間,單位是ms,默認(rèn)值是6000,也就是1分鐘。畢竟需要先搜索,然后爬取頁面,所以有時候接口的調(diào)用時間會有點(diǎn)長,我們可以稍微配置長一點(diǎn)的時間。
scrapeOptions:用來對搜索返回的內(nèi)容進(jìn)行處理的配置。
scrapeOptions.formats: 用來指定返回的格式。比如例子中我期望返回的是markdowm。
scrapeOptions.onlyMainContent:?在處理搜索結(jié)果的時候,爬蟲只需要爬取頁面中的主要內(nèi)容。
scrapeOptions.removeBaseImages:?不要爬取圖片,因?yàn)閳D片的base64 會占用很多文本,對我們后續(xù)處理不友好。

tbs: Time-based search parameter?的縮寫,用來限定search的時間段。常用的幾個值如下表:
lang:指定搜索目標(biāo)的語言,比如 en 英語、zh-cn 中文、ja 英文。要注意的是這個參數(shù)只有在搜索條件也包含對應(yīng)的語言的關(guān)鍵字的時候才生效的。
country: 搜索目標(biāo)的城市編碼,比如 us 美國、gb 英國、cn 中國、jp 日本。這個用來限定搜索的網(wǎng)頁是在哪個國家的。
location:搜索的地理位置。這個不是目標(biāo)網(wǎng)站的位置限定,是向 google傳遞你的地理位置!這樣google會根據(jù)你的地理位置返回個性化的搜索結(jié)果。比如本地的天氣、商家推薦之類的??梢詡鲊?、城市、地標(biāo)、省份,google自動會進(jìn)行模糊匹配。
{????"query":?"LLM?人性化?Prompt",????"limit":?3,????"timeout":?300000,????"tbs":?"qdr:y",????"lang":?"zh-cn",????"country":?"cn",????"location":?"廣東",????"scrapeOptions":?{????????"formats":?["markdown"],????????"onlyMainContent":?true,????????"removeBase64Images":?true????}}
關(guān)鍵字完整包含限定:比如你要搜索一個短語,你可以用雙引號?"key word"?包住這個短語,這樣就是完整搜索模式了。
剔除關(guān)鍵字:和上面的相反,如果要排除掉某些內(nèi)容,我們可以用?-keyword?來告訴Google搜索結(jié)果不要出現(xiàn)那些內(nèi)容。
剔除指定的網(wǎng)站:用?-site:網(wǎng)址?來告訴Google我不想看到某個網(wǎng)站里面的內(nèi)容。
限定搜索的網(wǎng)址:如果要限定搜索對象在某些特定的網(wǎng)站內(nèi),我們可以用?site:域名?限定搜索結(jié)果的域名,或者用?inurl:name?限定搜索結(jié)果的網(wǎng)址包含某個字符串,可以用?allinurl:xxx yyy?指定多個字符串。
限定搜索的網(wǎng)站標(biāo)題:我們可以限定只找包含限定關(guān)鍵字在標(biāo)題里面網(wǎng)址,用?intitle:keyword、allintitle:keyword1 keyword2。
{????"query":?"LLM?人性化?Prompt?-site:csdn.net",????"limit":?3,????"timeout":?60000,????"lang":?"zh-cn",????"tbs":?"qdr:y",????"scrapeOptions":?{????????"formats":?["extract"],????????"extract":?{????????????"prompt":?"Please?just?give?me?the?content?related?to?the?query?key?words?in?the?main?content,?remove?all?the?links?and?images.?Format?the?mainContent?as?a?more?readable?markdown"????????}????}}
scrapeOptions.extract: 這個下面開始定義要AI幫我們怎么處理搜索的結(jié)果。
scrapeOptions.extract.prompt:大模型的指令
scrapeOptions.extract.schema:可以自己定義輸出的json格式,比如例子中,我期望輸出中的json包含兩個字段:main_content ?和 total_wording。實(shí)測這個字段并不一定需要出現(xiàn)在我們給出的prompt中, FireCrawl會自己使用AI解析后給出相應(yīng)的格式。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 這一天致青年 我們?nèi)绾钨s續(xù)與傳承 7904076
- 2 “第一天出去旅游的人已老實(shí)” 7807854
- 3 男子送老人過馬路 3次敬禮全網(wǎng)刷屏 7713600
- 4 中國假期吸引世界流量 7616347
- 5 張嘉益《人民日報》撰文 7520211
- 6 90后美女副教授走紅 北航回應(yīng) 7425901
- 7 網(wǎng)警提醒:國慶歡樂游 安全別松懈 7329151
- 8 走失小狗在服務(wù)區(qū)苦等主人8小時 7234052
- 9 “課本上的傳奇”珍·古道爾逝世 7143773
- 10 多省發(fā)文補(bǔ)貼社保個人繳費(fèi)額的25% 7041560