鋼鐵工程師怎么看待人工智能
前言:回顧二十幾年的職業(yè)生涯,一個(gè)干鋼鐵的,從操作、質(zhì)檢、性能、合同、異議、自媒體科普、知識管理,最后轉行人工智能。雖然做過(guò)很多工作,但在我內心深處,其實(shí)還是有著(zhù)深深的工業(yè)情節。
那么從鋼鐵工程師的角度,對人工智能領(lǐng)域總結一些個(gè)人理解,歡迎大家提出不同的意見(jiàn),互相交流、互相印證。
人工智能三要素
數據、算法、算力,是人工智能三要素,三者缺一不可。本質(zhì)上,做人工智能項目就是根據本公司在這三要素上的資源儲備,平衡優(yōu)化,給出一個(gè)性?xún)r(jià)比最高的解決方案。
三要素是必要條件,缺一不可。三要素存在木桶短板效應,最短的那塊板子決定了整個(gè)項目的上限。當然,也有互聯(lián)網(wǎng)營(yíng)銷(xiāo)中常說(shuō)的木桶長(cháng)板效應——只要你在三要素里有一塊長(cháng)板,就可以和其他公司的長(cháng)板合作,做一個(gè)大木桶。
但是,前提是你得有一塊長(cháng)板。很多公司以為自己有,其實(shí)并沒(méi)有。
我們用工業(yè)領(lǐng)域的逐層解析的思維,用“剝洋蔥”的方法,一層層分析,看看“人工智能”這顆洋蔥是不是會(huì )讓我們淚流滿(mǎn)面~
算力——花錢(qián)就能搞定?
算力的升級是現代人工智能技術(shù)的先決條件,因為算力提升超過(guò)一定的閾值,使得大數據灌入并應用復雜的算法在有限的時(shí)間內計算出結果得以實(shí)現。
但是,算力其實(shí)是有窮盡的。畢竟,普通的商業(yè)公司不像谷歌、清華這些行業(yè)領(lǐng)軍者,可以拿著(zhù)幾億幾十億的資金去做預訓練和后續的一系列應用。
所以,對于普通的商業(yè)公司來(lái)說(shuō),我們現實(shí)一點(diǎn):一塊12G顯存的英偉達特斯拉K40顯卡能不能完成模型訓練并且在預估的時(shí)間內跑通少量并發(fā)的預測任務(wù)完成DEMO?
如果可以,那這個(gè)項目大體可控;如果不行,那也許這個(gè)項目的可控性是存疑的?;蛟S算法選擇不當、或許預處理效率不高,或許數據基礎太差等等~這些底層的基礎環(huán)節失控才會(huì )導致對算力無(wú)法做出準確評估。
我本人的經(jīng)驗:以中文NLP實(shí)體抽取為例,在配置十代桌面i7芯片的電腦上,能不能六小時(shí)內完成訓練(用CPU可以隨時(shí)評估,不受限于GPU服務(wù)器。),能不能在30秒內完成千字左右的單次小樣本預測。
如果可以,那這個(gè)項目對算力的需求是大體可控的。既然能控住算力需求,想必對項目的整體框架也是心中有數的。
算力就是水電煤,是能源,是動(dòng)力。
算法——常被誤解為是數學(xué)問(wèn)題
從工業(yè)應用的角度來(lái)看,算法的通俗理解是“滿(mǎn)足業(yè)務(wù)需求的邏輯”,算法是服務(wù)于業(yè)務(wù)需求的。
算法本質(zhì)上是把業(yè)務(wù)流程進(jìn)行高度抽象之后進(jìn)行范式轉換,然后再用數學(xué)方法運算,最后用于高效解決實(shí)際問(wèn)題的工具。
所以大家發(fā)現重點(diǎn)沒(méi)?要設計算法,首先得有業(yè)務(wù)抽象能力。沒(méi)有業(yè)務(wù)抽象能力無(wú)法設計出“滿(mǎn)足業(yè)務(wù)需求的邏輯”,在人工智能領(lǐng)域,算法不應當是一個(gè)單純的數學(xué)概念。
既然算法設計是個(gè)偏業(yè)務(wù)類(lèi)的工作,那么在工業(yè)領(lǐng)域的人工智能項目中,設計算法最強的是誰(shuí)?當然是“有一定IT知識的業(yè)務(wù)專(zhuān)家”,也就是前幾年傳統行業(yè)里說(shuō)的“數字化人才”。
那么在人工智能領(lǐng)域中數學(xué)家做的是什么?個(gè)人理解數學(xué)家的核心價(jià)值是設計運算模組,也就是業(yè)務(wù)算法和機器算力的中間層,是我們常常提到的BERT模型、W2V模型等等。
這些模型把業(yè)務(wù)抽象的邏輯算法進(jìn)行再度的抽象,制造出一種普適性的、高效的”運算模組“。他是算法調用的一個(gè)運算模塊,但不是算法本身。
算法是什么?算法是軋機、是退火爐。
運算模組是什么?是馬達、是離合器。
數據——你以為“有”,其實(shí)“并沒(méi)有”
數據的完整稱(chēng)呼應當是“可被算法用于計算的數據”。垃圾數據能計算么?不能,所以垃圾數據只是字節。
順帶一提,因為對于數據的定義產(chǎn)生了誤解,很多公司對于數據資產(chǎn)也產(chǎn)生了誤解。什么是資產(chǎn)?是預期會(huì )給企業(yè)帶來(lái)經(jīng)濟利益的資源。不能帶來(lái)經(jīng)濟利益的資源不能作為資產(chǎn),只是企業(yè)的權力,擁有這些字節的權力。
評估一個(gè)企業(yè)是否擁有數據,要看擁有的是一堆硬盤(pán)中保存的字節,還是分門(mén)別類(lèi),代碼化管理,規則清晰,結構合理的,“可被算法高效運算并產(chǎn)生經(jīng)濟利益“的數據。
除此之外,如何獲取和加工數據是一個(gè)重資產(chǎn)的話(huà)題。積累數據資產(chǎn)不可能空手套白狼,必須投入大量人力物力。更高層次的行業(yè)知識數據的獲取更是一個(gè)知識密集型的工作,不是行業(yè)頭部的公司恐怕做不了。
數據是生產(chǎn)原料,就像澳洲鐵礦、巴西鐵礦、或是印度鐵礦。從綜合成本的角度來(lái)看,投入產(chǎn)出是要平衡的,還沒(méi)有聽(tīng)說(shuō)有哪種一種技術(shù)可以低成本地從垃圾中煉出金子(開(kāi)發(fā)這種技術(shù)本身就是個(gè)重資產(chǎn)投入)。
算法+算力+數據=生產(chǎn)線(xiàn)
算法+算力+數據,就形成了一條可以生產(chǎn)的生產(chǎn)線(xiàn),就像冷軋產(chǎn)線(xiàn)、熱軋產(chǎn)線(xiàn)、退火產(chǎn)線(xiàn)。
這些產(chǎn)線(xiàn)串聯(lián)起來(lái),就是一個(gè)工廠(chǎng):
鋼鐵工廠(chǎng):高爐/電爐——連鑄/模鑄——熱連軋/厚板單軋——酸洗冷軋——連退/罩退/熱鍍/電鍍。
人工智能工廠(chǎng):語(yǔ)音/CV/OCR——NLP/規則模型——知識圖譜/SQL庫——應用功能模塊。
結語(yǔ)
在這一輪互聯(lián)網(wǎng)+的人工智能大潮之前,鋼鐵、電力、化工等行業(yè)其實(shí)都已經(jīng)做了大量的探索和基礎工作?;蛟S受限于工業(yè)體系技術(shù)成熟,設備更新周期較長(cháng)等原因,所以工業(yè)智能軟件的迭代沒(méi)有互聯(lián)網(wǎng)行業(yè)那么快。
但是這并不意味著(zhù)工業(yè)領(lǐng)域的人工智能基礎薄弱,反而是在基礎數據的規范體系建設、在如何結合現場(chǎng)設備壓榨算力等方面,工業(yè)領(lǐng)域做的非常出色。
以計算機視覺(jué)識別技術(shù)為例,其實(shí)鋼廠(chǎng)二十年前就在使用了。即使當年計算機算力低下,但工業(yè)領(lǐng)域的工程師仍然通過(guò)規范輸入信息(固定距離、流明等參數)+領(lǐng)域專(zhuān)家高質(zhì)量標注,通過(guò)大系統設計的思維,使得300米/分鐘的高速產(chǎn)線(xiàn)的視覺(jué)識別得以實(shí)現并穩定應用。
工業(yè)生產(chǎn)對準確性和穩定性要求非常高,一些從互聯(lián)網(wǎng)領(lǐng)域發(fā)展起來(lái)的人工智能技術(shù)或許很難短期快速的進(jìn)入工業(yè)生產(chǎn)的領(lǐng)域,但是在工業(yè)的管理和服務(wù)等領(lǐng)域人工智能技術(shù)還是可以有很大的發(fā)揮空間。
比如使用NLP(自然語(yǔ)言處理)技術(shù)用來(lái)讀取質(zhì)量異議文檔,自動(dòng)轉成表格化數據,然后減輕人工整理的工作量,便于統計分析和質(zhì)量管理。
或是使用NLP技術(shù)對工業(yè)領(lǐng)域的知識文檔進(jìn)行知識抽取,并用知識圖譜技術(shù)做底層的關(guān)系結構,用于鋼廠(chǎng)技術(shù)文稿、檔案、知識庫的管理,提供技術(shù)資料的快速檢索也是可以探索的。
至于知識圖譜技術(shù),它在流控方面具有天然優(yōu)勢,用來(lái)做制造部排產(chǎn)優(yōu)化、質(zhì)量異議的產(chǎn)線(xiàn)排查、質(zhì)量缺陷傳導分析等方面理論上也可以帶來(lái)更高的能效。
-END-