
攜手英偉達(dá):Mozilla發(fā)布新版Common Voice Dataset
Common Voice 是一項(xiàng)旨在通過(guò)眾包的方式,來(lái)教授機(jī)器人如何像真人般講話(huà)的項(xiàng)目。Mozilla 基金會(huì)在幾年前發(fā)起的該項(xiàng)目,現(xiàn)已迎來(lái)與芯片巨頭英偉達(dá)的最新合作。其旨在允許志愿者為世界上最大的開(kāi)放式通用語(yǔ)音數(shù)據(jù)集貢獻(xiàn)一份力,從而推動(dòng)語(yǔ)音合成與識(shí)別技術(shù)的發(fā)展。
(來(lái)自:Mozilla)
隨著新版公共語(yǔ)音數(shù)據(jù)集的發(fā)布,可知 Common Voice 語(yǔ)料庫(kù)已擁有超過(guò) 13000 小時(shí)的眾包語(yǔ)音數(shù)據(jù)。
與上一版相比,其新增了 4622 小時(shí)的內(nèi)容,并且迎來(lái)了對(duì) 16 種語(yǔ)言的支持,包括:
巴薩語(yǔ)、斯洛伐克語(yǔ)、北庫(kù)爾德語(yǔ)、保加利亞語(yǔ)、哈薩克語(yǔ)、巴什基爾語(yǔ)、加利西亞語(yǔ)、維吾爾語(yǔ)、亞美尼亞語(yǔ)、白俄羅斯語(yǔ)、烏爾都語(yǔ)、瓜拉尼語(yǔ)、塞爾維亞語(yǔ)、烏茲別克語(yǔ)、阿塞拜疆語(yǔ)、以及豪薩語(yǔ)。
目前 Common Voice 已經(jīng)收集了 76 種語(yǔ)言的公共語(yǔ)音數(shù)據(jù)庫(kù),以及超過(guò) 18.2 萬(wàn)份獨(dú)特的聲音,貢獻(xiàn)者社區(qū)在過(guò)去六個(gè)月內(nèi)迎來(lái)了 25% 的增長(zhǎng)。
語(yǔ)音時(shí)長(zhǎng) 13905 小時(shí),較上一版本增加了 4622 小時(shí)。排名前五的語(yǔ)言分別為英語(yǔ)(2630 小時(shí))、基尼亞盧旺達(dá)語(yǔ)(2260 小時(shí))、德語(yǔ)(1040 小時(shí))、加泰羅尼亞語(yǔ)(920 小時(shí))、以及世界語(yǔ)(840 小時(shí))。
增長(zhǎng)百分比最高的是泰語(yǔ)(從 12 小時(shí)到 250 小時(shí)、增長(zhǎng)近 20 倍),盧干達(dá)語(yǔ)(從 8 小時(shí)到 80 小時(shí)、增長(zhǎng) 9 倍),世界語(yǔ)(從 100 小時(shí)到 840 小時(shí)、增長(zhǎng)超 7 倍),泰米爾語(yǔ)(從 24 小時(shí)到 220 小時(shí)、增長(zhǎng)超 8 倍)。
感興趣的朋友,可移步至 Common Voice 官網(wǎng)(傳送門(mén)),為這個(gè)公共語(yǔ)音數(shù)據(jù)集貢獻(xiàn)自己的一份力量?;蛘咔巴?GitHub?存儲(chǔ)庫(kù),獲取特定的元數(shù)據(jù)集和使用說(shuō)明。
最后,作為 Mozilla 與 NVIDIA 的一個(gè)合作項(xiàng)目,相關(guān)訓(xùn)練模型也可通過(guò)?Nvidia NeMo?免費(fèi)獲得,后者是該公司打造的用于構(gòu)建語(yǔ)音識(shí)別和對(duì)話(huà)模型的工具包。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 潮涌天山活力新 7904296
- 2 廣東或大范圍停工 7809239
- 3 央視起底柯克之死 7713772
- 4 多領(lǐng)域重點(diǎn)工程傳來(lái)好消息 7617673
- 5 中產(chǎn)運(yùn)動(dòng)三件套又換了 7522958
- 6 24日廣東省內(nèi)所有列車(chē)停運(yùn) 7427950
- 7 特朗普兒子模仿爸爸引哄堂大笑 7333600
- 8 浙江大學(xué)教授被留置 持股市值31億 7238294
- 9 內(nèi)蒙古一地集中采集男性居民血樣 7136096
- 10 以總理:絕不會(huì)有巴勒斯坦國(guó) 等著瞧 7046277