人民網(wǎng)北京9月13日電 (記者夏曉倫、許維娜)近日,國家數(shù)據(jù)局發(fā)布一批“高質(zhì)量數(shù)據(jù)集典型案例”,人民網(wǎng)“主流價值語料庫”成功入選。
此次評選是為落實“人工智能+”行動有關(guān)部署,按照《國家數(shù)據(jù)局綜合司關(guān)于征集高質(zhì)量數(shù)據(jù)集典型案例的通知》工作安排,經(jīng)嚴格的申報推薦、專家評審環(huán)節(jié)最終確定名單。
作為中央重點新聞網(wǎng)站排頭兵,人民網(wǎng)依托傳播內(nèi)容認知全國重點實驗室科研能力,早在2023年初就啟動了主流價值語料庫的建設(shè)工作。該語料庫依托黨報黨網(wǎng)長期建設(shè)形成的新聞資訊、理論評論、政策法規(guī)和科普知識等優(yōu)質(zhì)資源,經(jīng)科學(xué)采樣、歸集、清洗、標注、定制、風(fēng)控等環(huán)節(jié)精心打磨而成。目前,語料庫已入庫3000多萬篇基礎(chǔ)語料、31萬對問答語料、500多萬對圖文語料,在國內(nèi)多家主流大模型廠家得到實際應(yīng)用,正向糾偏作用明顯。
主流價值語料庫入選國家數(shù)據(jù)局發(fā)布的“高質(zhì)量數(shù)據(jù)集典型案例”,是人民日報社AI建設(shè)的階段性成果。人民網(wǎng)將持續(xù)保持項目建設(shè)的力度和質(zhì)量,繼續(xù)擴大語料庫規(guī)模,不斷深挖重點領(lǐng)域,為人工智能行業(yè)供給更多高質(zhì)量語料。
據(jù)悉,國家數(shù)據(jù)局將定期圍繞高質(zhì)量數(shù)據(jù)集組織相關(guān)技術(shù)交流及主題研討等活動?,F(xiàn)將案例名單公布如下。(按推薦單位排序,排名不分先后)
附:“高質(zhì)量數(shù)據(jù)集典型案例”名單