
InternGPT視覺交互系統(tǒng)
聲明:該文章由作者(許諾余生)發(fā)表,轉(zhuǎn)載此文章須經(jīng)作者同意并請附上出處(0XUCN)及本頁鏈接。。
InternGPT(簡稱?iGPT) /?InternChat(簡稱?iChat) 是一種基于指向語言驅(qū)動的視覺交互系統(tǒng),允許你使用指向設(shè)備通過點擊、拖動和繪制與 ChatGPT 進(jìn)行互動。
InternGPT 的名稱代表了?interaction(交互)、nonverbal(非語言)和 ChatGPT。與依賴純語言的現(xiàn)有交互系統(tǒng)不同,通過整合指向指令,iGPT 顯著提高了用戶與聊天機(jī)器人之間的溝通效率,以及聊天機(jī)器人在視覺為中心任務(wù)中的準(zhǔn)確性,特別是在復(fù)雜的視覺場景中。
此外,在 iGPT 中,采用輔助控制機(jī)制來提高 LLM 的控制能力,并對一個大型視覺 - 語言模型?Husky?進(jìn)行微調(diào),以實現(xiàn)高質(zhì)量的多模態(tài)對話(在 ChatGPT-3.5-turbo 評測中達(dá)到?93.89% GPT-4 質(zhì)量)。
主要功能使用:
在圖片上傳成功后,你可以發(fā)送如下消息與 iGPT 進(jìn)行多模態(tài)相關(guān)的對話:"what is it in the image?"?or?"what is the background color of image?".
你同樣也可以交互式地操作、編輯或者生成圖片,具體如下:
點擊圖片上的任意位置,然后按下?Pick?按鈕,預(yù)覽分割區(qū)域。你也可以按下?OCR?按鈕,識別具體位置處存在的所有單詞;
要在圖像中?刪除掩碼區(qū)域,你可以發(fā)送如下消息:“remove the masked region”;
要在圖像中?替換掩碼區(qū)域的物體為其他物體,你可以發(fā)送如下消息:“replace the masked region with {your prompt}”;
想?生成新圖像,你可以發(fā)送如下消息:“generate a new image based on its segmentation describing {your prompt}”;
想通過?涂鴉創(chuàng)建新圖像,你應(yīng)該按下?Whiteboard?按鈕并在白板上繪制。繪制完成后,你需要按下?保存?按鈕并發(fā)送如下消息:“generate a new image based on this scribble describing {your prompt}”。
系統(tǒng)概覽:
主要功能
A) 移除遮蓋的對象
B) 交互式圖像編輯
C) 圖像生成
D) 交互式視覺問答
E) 交互式圖像生成
F) 視頻高光解說
安裝
基本要求
Linux
Python 3.8+
PyTorch 1.12+
CUDA 11.6+
GCC & G++ 5.4+
GPU Memory > 17G 用于加載基本工具 (HuskyVQA, SegmentAnything, ImageOCRRecognition)
安裝 Python 的依賴項
pip install -r requirements.txt
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904703
- 2 今年最強(qiáng)臺風(fēng)來襲 7809645
- 3 澳加英宣布承認(rèn)巴勒斯坦國 7713022
- 4 長春航空展這些“首次”不要錯過 7618334
- 5 43歲二胎媽媽患阿爾茨海默病 7521044
- 6 iPhone 17橙色斜挎掛繩賣斷貨 7425309
- 7 女子花10萬云養(yǎng)豬生重病難退錢 7327452
- 8 三所“零近視”小學(xué)帶來的啟示 7233133
- 9 中國消失的森林正“全盤復(fù)活” 7141892
- 10 老奶奶去世3年 鄰居幫打掃門前落葉 7044007