999国内精品永久免费视频,色偷偷9999www,亚洲国产成人爱av在线播放,6080亚洲人久久精品,欧美超高清xxxhd

中國自動化學(xué)會專家咨詢工作委員會指定宣傳媒體
新聞詳情
gkongbbs

昆侖數(shù)據(jù):工業(yè)大數(shù)據(jù)7大誤區(qū)

http://bfqmb.cn 2020-03-09 15:33 來源:文 | 首席數(shù)據(jù)科學(xué)家 田春華博士

    7個(gè)誤區(qū),分三批,包括規(guī)劃層面,技術(shù)路線方面,以及執(zhí)行層面,可能遇到的問題。

  言不及義:脫離業(yè)務(wù)邏輯的數(shù)據(jù)分析是浪費(fèi)

  案例:曾和合作伙伴探索過空壓機(jī)的大數(shù)據(jù)分析。在涉及到工業(yè)設(shè)備的大數(shù)據(jù)分析應(yīng)用中,有很多PHM(設(shè)備健康維護(hù)管理)的案例。

  但在跳到智能運(yùn)維之前,最好先討論一下預(yù)期的業(yè)務(wù)邏輯,我們的目標(biāo)是做第三方運(yùn)維業(yè)務(wù)(大數(shù)據(jù)用來提高維修效率),還是通過空壓機(jī)的數(shù)據(jù),來支撐一種新的業(yè)務(wù)模式,比如供應(yīng)鏈金融、業(yè)務(wù)流程優(yōu)化、能效優(yōu)化等。

  首先剖析一下,先不考慮現(xiàn)實(shí)條件,假設(shè)技術(shù)是百分之百的成功,這個(gè)技術(shù)實(shí)現(xiàn)之后,到底能干嘛?

  一年的這種壓縮機(jī),它的運(yùn)維成本到底是多少?如果我是這個(gè)設(shè)備制造商,我做智能運(yùn)維到底是來幫誰實(shí)現(xiàn)什么?我的收入或者我的成本來自于什么地方?

  如果智能運(yùn)維的收入包括利潤率都非常低,整個(gè)產(chǎn)業(yè)鏈,整個(gè)行業(yè)都還沒有發(fā)力,不妨轉(zhuǎn)變業(yè)務(wù)邏輯,不要急于模仿一些看似別人在其他領(lǐng)域已經(jīng)成熟的案例,先靈魂拷問自己的商業(yè)本質(zhì)是否合理。

  指雁為羹:脫離約束條件的“烏托邦”很難成功

  案例:這類問題通常出現(xiàn)在一些調(diào)度優(yōu)化、運(yùn)籌優(yōu)化層面,一講生產(chǎn)調(diào)度或者運(yùn)籌優(yōu)化,大家很容易的就想做全局優(yōu)化,這是大家的夢想,只有全局優(yōu)化才能有提升的空間。但是現(xiàn)實(shí)中,要具體問題具體分析,不能脫離物理世界的約束條件。

  例如,港口的集裝箱碼頭,其中一個(gè)很重要的問題就是碼頭的堆場優(yōu)化。因?yàn)槎褕鰶Q定容量,香港的碼頭是比較擁擠的,做對比優(yōu)化的空間很大,效益也大,我們要分析船來了之后怎么快速的支持裝貨、卸貨。

  但是做堆場優(yōu)化,業(yè)務(wù)范圍到底做多大?客戶希望做端到端的堆場優(yōu)化,一個(gè)集裝箱來了,就要決定最優(yōu)位置。這里忽略了,為了做堆場優(yōu)化,

  首先要有比較明確的集裝箱的到達(dá)量預(yù)測,預(yù)測必須相對準(zhǔn)確;

  第二,我要整個(gè)裝備的維修周期數(shù)據(jù),要獲得排班數(shù)據(jù),要獲得船期數(shù)據(jù)等各種關(guān)聯(lián)數(shù)據(jù);

  第三,要避免場內(nèi)卡車的擁堵,如果同一艘船的所有集裝箱都放在一起,裝船時(shí)候可能會造成局部擁堵。

  現(xiàn)實(shí)情況下你很難獲得這么全的數(shù)據(jù),中間的約束很多,首先,流量預(yù)測就很難做的精準(zhǔn)。第二,船的到達(dá),按說有固定的周期,但是也有些天氣因素,有些如當(dāng)前疫情因素是不完全可控的。在這種情況下,如果做優(yōu)化,是基于大量的假設(shè),效果可能會打一些折扣。

  不光在碼頭,其實(shí)工廠內(nèi)的調(diào)度優(yōu)化也是這樣,我們雖然追求全局優(yōu)化,但還是要考慮現(xiàn)實(shí)的條件,哪些數(shù)據(jù)不可得,包括得到之后他節(jié)省的成本到底有多高,都要認(rèn)真考慮,當(dāng)然技術(shù)上肯定會盡最大的努力來做。

  空中樓閣:與組織形態(tài)失配的數(shù)據(jù)分析很難落地

  過去我們也做過一些,從技術(shù)上可行,甚至精度還不錯(cuò),例如在設(shè)備故障診斷里一些重大部件的故障預(yù)測,雖然樣本比較少,結(jié)合一些機(jī)理和數(shù)據(jù)挖掘知識,有的時(shí)候還可以做出來一個(gè)不錯(cuò)的結(jié)果。

  但是結(jié)果落地的時(shí)候,其實(shí)大家很沮喪,問題就在于我就發(fā)現(xiàn)一個(gè)問題,有的時(shí)候預(yù)示著在現(xiàn)有的考核體系下,可能會某種程度上暗示著現(xiàn)有的運(yùn)維團(tuán)隊(duì)做的不到位,過去的定期維護(hù)做的不太好。這時(shí)候要指望現(xiàn)場一線團(tuán)隊(duì)給出真實(shí)的或者及時(shí)的反饋,通常很難。

  大家可以聯(lián)想一下,包括質(zhì)量提升等各種課題都會遇到類似的問題,在工業(yè)以外,甚至在商業(yè)里的很多預(yù)測,推行的時(shí)候也會遇到類似的問題,這個(gè)課題正好是某個(gè)部門負(fù)責(zé)的,他天天用自己經(jīng)驗(yàn)來做,現(xiàn)在你用數(shù)據(jù)分析比以前更好,除非這個(gè)項(xiàng)目從歸口,從組織形態(tài)上做一定的調(diào)整,否則通常很難讓他真正用起來。

  避實(shí)就虛:追 “時(shí)髦”,講“套路”,忘記了本來可行的做法

  例如院線的票房預(yù)測,上映之前的預(yù)測,會決定排片到底當(dāng)時(shí)排多少場,排什么時(shí)間段,到底做什么樣的排片策略?

  當(dāng)時(shí)Google發(fā)了一篇論文,說通過Google搜索量可以準(zhǔn)確預(yù)測一個(gè)影片的票房,這是一篇引用度蠻高的論文,當(dāng)時(shí)國內(nèi)好多人非常興奮,但把這樣的方式應(yīng)用到國內(nèi),發(fā)現(xiàn)精度并不理想。其實(shí)我們是半信半疑的,一個(gè)影片票房的基本面是什么決定的?

  例如,電影類型與地區(qū)的匹配度,它是恐怖片還是什么片?院線里面不同的影院,比方有的是生活區(qū)的有CBD的;比方成都喜歡看古墓片,比方廣州喜歡看粵語片,上海喜歡看小資片,比方哈爾濱基本上一般是抗戰(zhàn)片、武打片比較好,不同地域的人的喜好,是不是都反映在搜索量上?除了題材之外,還有演員的活躍度,在社交媒體的活躍度,導(dǎo)演最近獲過什么獎(jiǎng)?包括題材是個(gè)什么片?后來我們加入了很多,比如地理信息,包括一些過去不同院線之間的銷售趨勢,包括在什么社交媒體上看演員之間的影響力的增長趨勢,以及導(dǎo)演、演員和演員之間誰和誰搭配比較好。

  我們當(dāng)然希望用最簡單的方式,就能預(yù)測票房、備品備件需求,但還是要多問問本質(zhì)問題,基本面要考慮全一點(diǎn)。有時(shí)候不是難在預(yù)測上,而是要考慮一些外部的人為和不可控的影響,包括宏觀經(jīng)濟(jì)的變化。

  其實(shí)數(shù)據(jù)分析最應(yīng)該做的,反而是那些現(xiàn)實(shí)中間時(shí)不時(shí)出現(xiàn),但是人的經(jīng)驗(yàn)又做不好,又特別期望數(shù)據(jù)能幫忙的一些場景。

  這要求我們在數(shù)據(jù)處理上,即使有些情況基于現(xiàn)在的模型和數(shù)據(jù)支撐不了,也要預(yù)想到這些情況,至少知道這項(xiàng)技術(shù)的適用范圍是什么,而不是做了一個(gè)在特定情況下特別好的東西,就推而廣之。

  任何模型都是物理設(shè)計(jì)的一個(gè)簡化,都不可能脫離于物理世界,現(xiàn)在講數(shù)字孿生體,也要看模型用于研發(fā)階段還是在運(yùn)維階段,畢竟不可能有一個(gè)模型百分之百的等于物理世界。

  在現(xiàn)實(shí)中說抓基本面,基本面是什么?比如做大宗物資的需求預(yù)測,就要梳理大宗物資供和需,它的驅(qū)動因素到底是什么?不用特別定量,先大概把關(guān)聯(lián)因素梳理完。比如做設(shè)備的運(yùn)行優(yōu)化、故障監(jiān)測,不要一上來就用各種復(fù)雜的公式,其實(shí)更應(yīng)該了解基本量之間的影響關(guān)系、動員關(guān)系。

  閃爍其詞:在“科學(xué)”名義下,以“非科學(xué)”的態(tài)度去做“科學(xué)”的事情

  做工業(yè)數(shù)據(jù)分析,我們需要知道一個(gè)模型的使用邊界,沒有一個(gè)模型能解決所有問題,或者適用于所有情況,除非它是一個(gè)偽科學(xué)。

  做數(shù)據(jù)分析6個(gè)階段,真正耗時(shí)的是什么?是最早的業(yè)務(wù)問題理解,這也是最關(guān)鍵的階段。當(dāng)然CRISP-DM默認(rèn)把社會分工做好了,假設(shè)數(shù)據(jù)分析師只做數(shù)據(jù)挖掘,數(shù)據(jù)分析,在現(xiàn)實(shí)中間不可能這么理想,有可能別人給你理出來的問題不一定正確,在某種程度上要重新定義問題,而不只是理解。

  當(dāng)然,還有一些跨專業(yè)要理解,不熟悉的領(lǐng)域的背景知識都非常重要,做化工連化工原理都不知道,做電力連電力的基本動力學(xué)都不知道,去盲做就很容易挖出來一些常識,這是社會資源的一種浪費(fèi)。

  第二比較耗時(shí)的是數(shù)據(jù)準(zhǔn)備,正常情況下數(shù)據(jù)挖掘非常好做,但很多時(shí)候,數(shù)據(jù)挖掘偏偏是處理那些看起來不太正常,但在現(xiàn)實(shí)中間經(jīng)常出現(xiàn)的一些狀況。作為一個(gè)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)分析師,我們要從數(shù)據(jù)中間,看到好多業(yè)務(wù)專家早期沒有想到的一些信號,甚至是他認(rèn)為不可能在數(shù)據(jù)中出現(xiàn),或是他習(xí)空見慣,沒意識到,沒給介紹的一些情況,這些有時(shí)候會大大影響分析模型的準(zhǔn)確度。要自動執(zhí)行的時(shí)候,可用性是非常重要的。

  數(shù)據(jù)只是一種表象,作為數(shù)據(jù)分析師,我們的態(tài)度是相信數(shù)據(jù),但是不迷信數(shù)據(jù),因?yàn)閿?shù)據(jù)本身的采集方式可能會有偏差,比方以前講的「幸存者偏差」,只有沒被打掉的飛機(jī)才飛回來了,所以我們損失了很多,薄弱環(huán)節(jié)被打掉的一些信息。

  有些數(shù)據(jù)的采集方式、采集精度,包括數(shù)據(jù)的樣本選擇上,可能會給我們誤導(dǎo),看起來做的不錯(cuò),其實(shí)本身數(shù)據(jù)沒有反映物理現(xiàn)實(shí)。包括傳感器的安裝位置,傳感器本身的測量原理,可能會給數(shù)據(jù)本身帶來一定的影響,這時(shí)候需要比較謹(jǐn)慎和樂觀的態(tài)度去挖掘,同時(shí)要像其他工科一樣反復(fù)推敲,這是非常糾結(jié)和磨難的一個(gè)過程。

  從某種程度上,數(shù)據(jù)分析的整個(gè)過程,和傳統(tǒng)的工科工程化方法是一樣的。任何東西都是基于一定的假設(shè)所做出來,放到一個(gè)現(xiàn)實(shí)中,或者相對客觀的現(xiàn)實(shí)中去驗(yàn)證,驗(yàn)證完之后,反復(fù)的去觀察,這樣才有可能從一定規(guī)律上反映了這個(gè)物理現(xiàn)實(shí)。

  什么叫科學(xué)的態(tài)度,就是要反復(fù)問,任何東西都是可以被證偽或證實(shí)的,沒有什么東西是絕對對或者絕對錯(cuò)的。

  舍本從末:把一個(gè)簡單的問題復(fù)雜化

  數(shù)據(jù)分析師,有時(shí)候經(jīng)意不經(jīng)意地把一個(gè)問題給復(fù)雜化了,有時(shí)候有些工藝機(jī)理非常簡單,基本面就在那,沒必要把這個(gè)問題拔到一個(gè)深度學(xué)習(xí)或者一個(gè)什么高深的方法來做。

  該簡單的問題就簡單處理,不要在不重要的地方花太多時(shí)間,好多數(shù)據(jù)分析師都是比較較真的,像我早期也是,細(xì)枝末節(jié)沒搞清楚,心里就不舒服。

  數(shù)據(jù)分析作為一個(gè)工程化方法,要抓大放小,在一定的時(shí)間、空間、時(shí)間、費(fèi)用的約束下,做到最好。

  我以前學(xué)控制的,到大四的時(shí)候,接到一個(gè)實(shí)際衛(wèi)星的姿態(tài)控制項(xiàng)目,上來我們就列狀態(tài)方程傳遞函數(shù),因?yàn)樾l(wèi)星模型也比較成熟,先證明穩(wěn)定性,再通過根軌跡或者是波特圖設(shè)計(jì)做控制系統(tǒng)的設(shè)計(jì)。我自己當(dāng)時(shí)非常得意,因?yàn)樯蠈W(xué)上了十幾年,第1次看到自己學(xué)了這么多年的東西,終于在現(xiàn)實(shí)中間有點(diǎn)用了。

  我們?nèi)ジ教斓膶<医涣?,對方給的評價(jià)也比較高,當(dāng)時(shí)我問,你們做衛(wèi)星設(shè)計(jì)的時(shí)候,怎么做?他說,其實(shí)沒有你考慮那么復(fù)雜,把不重要的全忽略掉,衛(wèi)星三個(gè)軸都是耦合的,你不妨假設(shè)三個(gè)軸是解耦的,剩下的你就把它想象成一個(gè)剛體,到底偏了幾度,你到底多少分鐘想把它轉(zhuǎn)回來?你能加多大的力?加多大力,電流馬上就轉(zhuǎn)換成控制參數(shù)。星箭分離之后,到底噴氣怎么噴?你想加多大的沖量,一個(gè)沖量噴一下持續(xù)多少秒,然后產(chǎn)生多大沖量,沖量產(chǎn)生多大加速度,我要多少秒糾正過來?基本面就這么多,就這么簡單。

  當(dāng)時(shí)對我觸動蠻大的,不要一上來就把一些不重要的復(fù)雜因素都考慮進(jìn)去,這個(gè)觀念一路影響我后面的研究與分析。當(dāng)然任何簡化都是有前提的,在衛(wèi)星仿真里面,這種簡化是在小角度或者接近穩(wěn)定的情況下使用,如果大部件分離或者太陽能翻板剛打開等大動態(tài)的情況下,簡化是非常危險(xiǎn)的。

  再舉個(gè)例子,風(fēng)力發(fā)電機(jī)葉片結(jié)冰,可以做成結(jié)冰檢測,在結(jié)冰嚴(yán)重,PLC警報(bào)之前,早期檢測出來;也可以做結(jié)冰預(yù)測,但這兩個(gè)問題難度差是十萬八千里。結(jié)冰預(yù)測的前提,首先要做天氣預(yù)報(bào)。

  大家也都知道宏觀天氣預(yù)報(bào),氣象局努力了這么多年,也上了很多手段,在有些地方有時(shí)候還是預(yù)測不準(zhǔn)。且不說我們要做局部天氣預(yù)報(bào),每個(gè)風(fēng)機(jī)每個(gè)截面都要做,還要做到以小時(shí)計(jì),這非常難的,這是一個(gè)世界難題,非常難做。

  我們有時(shí)候有意無意的把一個(gè)問題復(fù)雜化,做結(jié)冰檢測,其實(shí)就看風(fēng)機(jī)的運(yùn)行狀態(tài),就看它的出力和風(fēng)速的關(guān)系,有沒有一個(gè)持續(xù)的緩慢的下降,或者再綜合其他的故障信息,就能把一個(gè)問題簡化不少。

  因陋就簡:數(shù)據(jù)基礎(chǔ)不健全,就輕易放棄

  是不是數(shù)據(jù)基礎(chǔ)不好,我就不要做大數(shù)據(jù)?對數(shù)據(jù)分析師來說,數(shù)據(jù)質(zhì)量從來沒好過。

  我也接觸過商業(yè)的數(shù)據(jù),銀行的數(shù)據(jù)、電信的數(shù)據(jù)稍微偏好一點(diǎn),但是對我們數(shù)據(jù)分析師那種孜孜不倦的要求來講,數(shù)據(jù)質(zhì)量從來沒好過,我是深有體會。

  以前在境外做過一個(gè)城市管網(wǎng)的失效預(yù)測,預(yù)測一個(gè)地下水管網(wǎng),明年哪個(gè)管子可能會壞?從數(shù)據(jù)的質(zhì)量講,客戶非常自信,因?yàn)樗男畔⒒酱蟾蓬I(lǐng)先于國內(nèi)十多年。

  我需要最基本的管網(wǎng)的管件、管材管理,所處位置,地面的交通數(shù)據(jù)、環(huán)境數(shù)據(jù),包括附近有什么建筑物,他的土地利用性質(zhì),還需要天氣數(shù)據(jù)……他說這都有,一個(gè)地方政府能把每條道路的交通流量,每個(gè)地方土地使用性質(zhì)附近有什么建筑物,包括最近有沒有下雨,甚至整個(gè)管網(wǎng)的壓力區(qū),平均水壓是多少都能給出來。

  如果單個(gè)看,每種數(shù)據(jù)缺失都不太嚴(yán)重,數(shù)據(jù)完整度能到80%。但是一旦把這些因素關(guān)聯(lián)起來,要建模型的時(shí)候,我要把管網(wǎng)本身的特性、土地使用性質(zhì)、天氣信息、土壤的酸堿度信息等綜合來預(yù)測,這時(shí)候一一關(guān)聯(lián)起來就發(fā)現(xiàn),真的有完整數(shù)據(jù)的管道,不到30%。

  這其實(shí)讓客戶非常震驚,數(shù)據(jù)集相互孤立著,有些字段偶爾缺一點(diǎn)也不明顯,但是對數(shù)據(jù)分析來說,我要關(guān)聯(lián)起來看,要橫著看豎著看,所以我對數(shù)據(jù)質(zhì)量的要求非常高。

  從我們數(shù)據(jù)分析來看,其實(shí)數(shù)據(jù)基礎(chǔ)健不健全都是相對的,有些數(shù)據(jù)分析發(fā)現(xiàn)的數(shù)據(jù)缺失,也是幫助信息化建設(shè)來把它不斷的補(bǔ)全的一個(gè)過程。有什么樣的數(shù)據(jù)做什么樣事,哪怕數(shù)據(jù)不全,也可以從簡單的做,從容易的做,從基礎(chǔ)比較好的地方做。

  任何一個(gè)正常的科學(xué)技術(shù)都是有邊界的,工業(yè)大數(shù)據(jù)作為一個(gè)技術(shù),肯定有適用和不適用的范圍。

版權(quán)所有 中華工控網(wǎng) Copyright?2025 Gkong.com, All Rights Reserved