北京12天連發3份政策文件,對全國加快發展AI有何示範效應?

來源:澎湃新聞

記者邵文

圖片來源:由無界AI工俱生成

·北京針對算力、數據、算法、應用、監管等產業發展核心要素及關鍵環節的難點、堵點,提出了具體舉措,五個維度協同發力。

·從某種程度上講,北京在發展人工智能方面如何制定和推行政策,具有全國示範效應。 “中國正加快通過強化國家支持來培育本土的人工智能先驅”,而“首都率先制定新興產業政策的情況並不少見”。

最近,北京、上海、深圳、成都等地陸續出台一系列鼓勵人工智能發展的政策文件,其中,政策密度最大、最引人關注的北京,在12天內連續公佈了3個相關文件:5月19日,發布《北京市通用人工智能產業創新夥伴計劃》(下稱《夥伴計劃》);5月30日,印發《北京市促進通用人工智能創新發展的若干措施》(下稱《若干措施》);5月30日,印發《北京市加快建設具有全球影響力的人工智能創新策源地實施方案(2023-2025年)》(下稱《實施方案》)。

仔細梳理這些文件可以發現,北京針對算力、數據、算法、應用、監管等產業發展核心要素及關鍵環節的難點、堵點,提出了具體舉措,五個維度協同發力。

“《實施方案》是一個戰略層面的文件,《夥伴計劃》是關於創新夥伴和價值聯盟方面的專門文件,屬於策略層面,《若干措施》是提出若干有操作性的運作措施。這幾個文件,有戰略,有策略,有運作實施,相輔相成,抓住了時代的趨勢和重點。”法國里昂商學院人工智能管理學院(AIM)院長、全球商業智能中心(BIC)主任龔業明對澎湃科技(分析道。

根據IDC《2022-2023中國人工智能計算力發展評估報告》,北京位居2022年中國人工智能城市排行榜首位。截至2022年11月,北京在17個人工智能相關領域領跑全國。根據中國科學技術信息研究所今年5月28日發布的《中國人工智能大模型地圖研究報告》,目前中國10億參數規模以上的大模型至少已發布79個,北京佔38個,位居第一。

從某種程度上講,北京在發展人工智能方面如何制定和推行政策,具有全國示範效應。美國科技媒體TechCrunch近日評價北京的措施稱,“中國正加快通過強化國家支持來培育本土的人工智能先驅”,而“首都率先制定新興產業政策的情況並不少見”。

近五年中國人工智能城市TOP10排名變化。來源:IDC

算力資源統籌供給,加強國產芯片

算力是訓練大語言模型(LLM)的基礎要素,大語言模型的發展也給算力帶來巨大挑戰。近期AI芯片“領導者”英偉達公司的市值飆升,可反映進入ChatGPT時代後市場對算力重要性的預期。 “目前,算力是通用人工智能創新比較緊迫需要處理和提高的一個要素。”龔業明表示。

在算力方面,《若干措施》第一條即提出“提升算力資源統籌供給能力”。一方面組織商業算力滿足緊迫需求:實施算力夥伴計劃,與雲廠商加強合作,提供多元化優質普惠算力;另一方面,推動新增算力基礎設施建設:加快推動海淀區、朝陽區建設北京人工智能公共算力中心、北京數字經濟算力中心等項目建設,形成規模化先進算力供給能力;此外,建設統一的多雲算力調度平台,實現異構算力環境統一管理、統一運營,提高環京地區算力一體化調度能力。

其中,“規模化先進算力供給”值得注意,IDC中國研究總監盧言霞對澎湃科技表示,下一代AI的發展需要規模化先進算力的支撐,尤其是大模型的預訓練、生成式AI的研發。

目前,全國有超過30個城市正在建設或提出建設智算中心。據浙商證券預測,“十四五”期間,對智算中心的投資可帶動人工智能核心產業增長約2.9-3.4倍,未來幾年中國智能算力規模年復合增長率將超過50%,智能算力取代基礎算力成為算力結構最主要構成,智能算力成為增長驅動力。

不過盧言霞提醒道,需要注意的是,建設了這些算力,要考慮將來利用率到底如何,不要淪為沈沒成本。此外,在未來幾年,最值得重視的是如何提高計算能效,數據中心發展到如今的規模和體量,能耗將成為未來製約發展的重要因素。

在算力的硬件承載——芯片方面,龔業明指出,高端人工智能芯片及相關設備成本較高,獲取有一定困難,這是發展通用人工智能的一大短板。

对于芯片,《实施方案》着重强调了“国产”二字。该文件提出的工作目标是:“国产人工智能芯片和深度学习框架等基础软硬件产品市场占比显著提升,算力芯片等基本实现自主可控。国产硬件比例显著提高,全面兼容国产深度学习框架。”在主要任务方面,该文件提出:积极引导大模型研发企业应用国产人工智能芯片,加快提升人工智能算力供给的国产化率;加强国产芯片部署应用,推动自主可控软硬件算力生态建设;组建全栈国产化人工智能创新联合体,研发全栈国产化的生成式大模型,逐步形成自主可控的人工智能技术体系和产业生态。

對於芯片的具體研發方向,《實施方案》指出:面向人工智能雲端分佈式訓練需求,開展通用高算力訓練芯片研發;面向邊緣端應用場景的低功耗需求,研製多模態智能傳感芯片、自主智能決策執行芯片、高能效邊緣端異構智能芯片;面向創新型芯片架構,探索可重構、存算一體、類腦計算、Chiplet等創新架構路線。

浙商證券解讀稱,預計未來北京的算力中心建設有望提速,國產芯片將得到優先支持,中科系、華為系算力硬件供應商有望深度獲益。

建設高質量預訓練中文語料庫

“算力成本確實是當前推廣大模型、生成式AI的主要挑戰之一。但算力不是唯一挑戰,數據資源、高端人才都是挑戰,需要開放數據、培育產業人才等一系列配套措施。”盧言霞說。

在數據方面,北京系列文件的核心思路在於構建安全合規的開放基礎訓練數據集,建設高質量的預訓練中文語料庫。

數據是中文大型語言模型發展過程中的一項重要瓶頸。粵港澳大灣區數字經濟研究院認知計算與自然語言中心文本生成算法團隊負責人王昊曾對澎湃科技表示,“相較於英文數據,中文數據的開源程度較低,導致中文數據集的規模相對較小。此外,英文作為科研主流語言,在學術界和工業界中得到廣泛應用,積累了大量高質量的語料數據,這為英文自然語言處理的研究提供了極大的優勢。”

在構建高質量數據集方面,《若干措施》提出三個具體施行方向。一是組織有關機構整合、清洗中文預訓練數據,形成安全合規的開放基礎訓練數據集。探索推進公共數據專區授權運營,推動公共數據與市場化數據平台對接;二是謀劃建設數據訓練基地,提升數據標註庫規模和質量,探索基於數據貢獻、模型應用的商業化場景合作;三是建設數據集精細化標註眾包服務平台,鼓勵專業人員參與標註,研究平台激勵機制。

《實施方案》則強調,要加強公共數據開放共享。 “聚焦城市大腦、智慧政務、智慧民生服務等領域,動態更新公共數據開放計劃,完善金融、交通、空間等各類公共數據專區建設。”

上海賽博網絡安全產業創新研究高級研究員周雪靜對澎湃科技表示,當前大模型的訓練數據來源可以分為兩類,一是網絡數據,二是合成數據(Synthetic Data)。

網絡數據的來源包括:採集物理世界的個人信息形成網絡數據、直接採集互聯網上的數據以及數據交易。通常來說,網絡數據的收集、清洗、處理時間和金錢成本較高。

合成數據的處理則更加高效、廉價,可重複利用。以人臉數據為例,如果將一個自然人所能提供的人臉數據設為1,那麼通過合成、編輯等功能,將基礎的人臉數據進行調整(五官或表情),可以實現10或者100個人臉數據,大大降低訓練數據的成本和獲取難度。合成數據也需進行個人信息保護,根據《互聯網信息服務深度合成管理規定》,在使用生物識別信息編輯功能前,應依法告知被編輯的個人,並取得其單獨同意。

網絡數據與合成數據。

發展面向通用人工智能的基礎理論體系

得益於模型泛化能力強、長尾數據依賴性低和下游模型使用效率的提升,大模型被認為具備了“通用智能”的雛形。

《實施方案》顯示,北京計劃發展面向新一代人工智能的基礎理論框架體系,圍繞人工智能數學機理、大數據智能、多模態智能、決策智能、類腦智能、科學智能、具身智能等方向開展研究佈局。

《若干措施》明確提出,探索通用智能體、具身智能和類腦智能等通用人工智能新路徑。支持價值與因果驅動的通用智能體研究,打造統一理論框架體系、評級標準及測試平台,研發操作系統和編程語言,推動通用智能體底層技術架構應用。推動具身智能係統研究及應用,突破機器人在開放環境、泛化場景、連續任務等複雜條件下的感知、認知、決策技術。支持探索類腦智能,研究大腦神經元的連接模式、編碼機制、信息處理等核心技術,啟發新型人工神經網絡模型建模和訓練方法。

其中,文件提及的“具身智能”,是指有身體並支持物理交互的智能體,如家用服務機器人、無人車等。最近,這個概念被英偉達創始人兼CEO黃仁勳帶火,5月中旬,他在2023年ITF世界大會演講中表示,“下一波人工智能浪潮,將是一種被稱為具身人工智能的新型人工智能,即能夠理解、推理並與物理世界互動的智能係統。”

值得注意的是,《若干措施》還提出,鼓勵第三方非盈利機構構建多模態多維度的基礎模型評測基準及評測方法;研究人工智能輔助的模型評測算法,開發包括通用性、高效性、智能性、魯棒性在內的多維度基礎模型評測工具集;建設大模型評測開放服務平台,建立公平高效的自適應評測體系,根據不同目標和任務,實現大模型自動適配評測。

自ChatGPT爆火之後,國內大模型經歷了一個“狂飆”的春天。中國科學技術信息研究所所長趙志耘5月28日表示,據不完全統計,到目前為止中國10億參數規模以上的大模型已發布79個,14個省市/地區都在開展大模型研發。面對“百花齊放”的局面,如何評測大模型已被政策提上日程。澎湃科技從多位知情人士處獲知,目前北京、上海多個重點人工智能實驗室都在集中完成測評工作。

就在6月3日,認知智能全國重點實驗室、中科院人工智能產學研創新聯盟和長三角人工智能產業鏈聯盟共同發布了《通用認知智能大模型評測體系》,旨在形成一套覆蓋多任務的大模型能力客觀評測體系,引導中國認知大模型技術和產業健康發展。

聚焦六大場景

在大模型的能力加持下,以文生圖和虛擬數字人等AIGC(人工智能生成內容)類應用將快速進入到商業化階段。

《若干措施》提出推動通用人工智能技術創新場景應用,重點列舉了政務服務、醫療、科學研究、金融、自動駕駛、城市治理六大場景。

《實施方案》則強調,要依托北京優勢場景資源,加快資本、技術、數據、算力、人才等要素匯聚,打造形成一批可複制、可推廣的標杆型示範應用場景,促進人工智能創新鏈產業鏈資金鍊人才鏈深度融合。另外,支持人工智能賦能智慧城市建設,支持海淀區建設城市大腦2.0,推動北京市高級別自動駕駛示範區3.0等項目順利實施。

《夥伴計劃》提到了一些更具體的場景。 “圍繞首都之窗智能問答、在線導辦等場景,依托私有化部署的算力集群資源,逐步開展政務服務行業專有模型訓練、精調、剪枝、蒸餾等工作,賦能'12345接訴即辦'輔助場景。”“聚焦本市虛擬數字人、數字醫療、電商零售等創新活躍的數據優勢領域,加快推進大模型商業化落地應用,加速文字創造、人機交互、教育、影音等場景落地應用。”

中國人工智能應用場景發展路徑。來源:IDC

“我認為目前應該還是發展專用人工智能的時間,即使是ChatGPT或GPT(生成式預訓練Transformer模型),要真正產業化落地,還是需要面向場景去打磨。”盧言霞說。

IDC認為,未來五年,隨著人機交互、機器學習、計算機視覺、語音識別技術達到更為成熟的階段,人工智能應用的發展趨勢包括,以知識為主要生產工具的創作型工作(如文字、視頻、圖像和音頻創作,軟件開發,IP孵化等)將實現更大程度的智能化;行業企業將拓展數字孿生與人工智能技術的融合應用,推進能源電力、製造、建築等行業發展,構建虛擬工廠、數字孿生電網、數字孿生城市,加強數字與現實世界的連接,優化流程,實現全域管理,決策智能。

營造包容審慎的監管環境

在監管方面,兩份文件都提及“包容審慎”。

周雪靜對澎湃科技表示,監管層面的“包容審慎”分為“包容”和“審慎”兩個維度。包容是對於現階段國內通用人工智能的創新、發展予以鼓勵,通過建立試點(示範區、試驗區)的方式給予企業試錯的機會,進而加快形成一批標杆示範案例,為整個產業的發展加速。而審慎則是從安全合規的角度出發,考慮的是對於發展過程中出現的網絡安全、數據安全以及其他新型風險對國家、社會和個人帶來的影響,因此需要對市場進行及時的監管干預。

“本質上,包容審慎是一種靈活的、分類分級的監管策略,尤其在大模型、AIGC等新興技術和新產業發展的前期階段,能夠更好地降低企業試錯成本和合規成本,鼓勵我國人工智能創新發展。”周雪靜說。

如何營造包容審慎的監管環境? 《若干措施》主要包括四點:

第一,持續推動監管政策和監管流程創新,鼓勵創新主體採用安全可信的軟件、工具、計算和數據資源,開展人工智能算法、框架等基礎技術的自主創新、推廣應用、國際合作;第二,建立常態化服務和指導機制,對具有輿論屬性或社會動員能力的人工智能相關互聯網信息服務,開展常態化聯繫服務,指導創新主體引入技術工具進行安全檢測、按規定申報安全評估、履行算法備案等程序;第三,加強網絡服務安全防護和個人數據保護;第四,持續加強科技倫理治理。

事實上,生成式人工智能的迅猛發展已經引發全球多個國家和地區的監管動作。在OpenAI、谷歌等科技巨頭的推動下,美國政府與國會已展開探討。在監管方面走在前面的歐盟,其《人工智能法案》已接近走完立法程序。

歐盟白皮書《面向卓越和信任的人工智能發展之道》提供了一個值得參照的思路,即開展“以風險等級為基礎”的監管路徑,強制性規定原則上只適用於高風險人工智能活動,確保監管干預具有適用性和針對性。此外,實施多方參與監管治理,由會員國指定的認證機構對人工智能係統進行獨立審查和評估。

在執行層面,周雪靜分析,從目前人工智能的監管部門來看,我國呈現多頭監管的現狀,有關部門包括國家市場監督管理總局、國家互聯網信息辦公室、工業和信息化部、科技部等。在法律法規層面,一方面是通過專門性綜合性立法對網絡運營者在使用人工智能技術的義務和責任進行規範,另一方面則是切實聚焦到人工智能領域的算法、模型、技術,進行具體規範。

人才高地與政府投資基金

除了算力、數據、算法、應用、監管五個維度,北京系列文件還在人才、創新等方面提出了具體措施。

《實施方案》明確目標:建設一批具有世界級影響力的人工智能科研機構,引進培育國際一流創新人才團隊,國際引才取得新突破。高水平學者數量超萬人,國內佔比保持領先。

主要任務則包括,推動建設人工智能領域人才高地。 “探索實施海外人才來京落地即支持政策,著力引進、培養一批具有世界影響力的頂尖人才、青年人才。”“充分發揮高等學校、科研院所、新型研發機構和企業的作用,引進各層級科學家、產業和工程技術人才。”

作為中國人工智能領域最重要的研究機構之一,北京智源人工智能研究院近來獲得了前所未有的關注。微軟總裁布拉德·史密斯(Brad Smith)4月曾在談及微軟和ChatGPT的競爭對手時稱,“我們看到3個處於絕對前沿的機構,一個是OpenAI和微軟,第二個是谷歌,第三個是北京智源人工智能研究院。”

北京智源人工智能研究院成立於2018年12月,定位“新型研發機構”,提出了一套“智源模式”,即建立自由探索與目標導向相結合的科研管理機制,以小同行視角遴選支持智源學者自由探索,以“集中力量辦大事”的科研組織模式推動“悟道”大模型等重大科研任務的實施。 2021年,智源研究院發布了當時全球規模最大、性能最強的智能模型“悟道2.0”,參數量達到1.75萬億(GPT-3.5的十倍)。今年5月28日,北京智源人工智能研究院在2023中關村論壇平行論壇上推出通用分割模型SegGPT(Segment Everything In Contex)。

除了國際一流的研究機構,企業的創新環境也尤為重要。 《實施方案》提出目標:人工智能領軍企業科研投入持續增加,初創企業數量不斷增長,企業總數保持國內領先,新培育獨角獸企業5-10家。

主要任務則包括,發揮政府投資基金引導作用,支持長期資本、耐心資本面向人工智能芯片、框架和核心算法開展早期硬科技投資。持續做好人工智能企業掛牌上市培育工作。

《實施方案》指出,要加強人工智能企業梯度培育。 “加大對創新型中小企業的培育力度,將有潛力成為獨角獸的企業提前納入培育體系。”“推動一批國際知名研究機構、跨國企業、國內領軍企業在京建設創新業務實體。”“落實市區兩級企業服務包、服務管家機制,對人工智能領域有潛力的創新企業,可適當放寬納入服務包的標準,提高服務覆蓋面。”

與北京的政策類似,日前發布的《深圳市加快推動人工智能高質量發展高水平應用行動方案(2023-2024年)》提出,深圳將發揮政府投資引導基金作用,統籌整合基金資源,形成規模1000億元的人工智能基金群。幾乎在同一時間,《上海市加大力度支持民間投資發展若干政策措施》發布,將通過“基金招商”的模式,聚力招引“三大先導產業”,人工智能就是“三大先導產業”之一。

查看原文
本頁面內容僅供參考,非招攬或要約,也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate.io APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)