中文字幕精品无码亚洲字精舞,爱丫爱丫影院在线观看免费,a片毛片免费看,337P日本欧洲亚洲大胆人人

做合格的工業數據分析師

2022/4/26 2:51:39 人評論 次瀏覽 分類:過程控制  文章地址:http://m.wxmqjy.com/tech/4209.html

筆者估計:除了圖像處理,從事工業大數據分析時,95%以上的工作都可以用線性回歸、決策樹、方差分析、頻譜分析、最大似然估計、取平均數等基本的統計或數據處理方法完成。但是,人們講到這些方法時,卻往往會把重點放在深度學習、模式識別等。

現實中,這些高級方法往往是“殺雞用牛刀”,反而不好用。因為這些方法,難以與人的知識和認識結合起來。人們樂于宣傳這些方法的原因,除了便于發表文章,就是便于保密。從事相關工作的朋友必須明白;自己要對自己的時間負責。最好用簡單的辦法分析問題。


但是,做數據分析工作其實很不容易。即便對數學和統計學功底好的人來說,人才的“成才率”恐怕不會高于10%。那么,困難到底在什么地方?要理解這種困難,還是從《黑天鵝》中的那個故事談起。作者問道:
一個硬幣丟了99次,每次都是正面朝上。請問第100次正面朝上的概率是多大?學霸的標準答案是:第100次正面朝上的概率與前面99次的結果沒有關系。所以,概率是50%。而老油條的答案則是:前面連續99次都朝上了,你還會認為正面朝上的概率是50%嗎?前提不成立了!

現實中,數據分析的難點,在于認清正確的前提。


工業數據分析師

錯誤使用統計分析方法的現象非常普遍。筆者在寶鋼工作時,看到鋼鐵行業同仁們寫的論文,就對辦公室的年輕人說:真想把這些論文作為反面案例,告訴大家什么是錯誤的分析方法。在這些例子中,有的回歸分析的前提不成立,有人在選取樣本時犯了初級錯誤。

這種現象并不奇怪。

筆者參與研究生面試時,經常遇到這樣的事情:給學生出一道復雜的計算題,基本上都能正確地計算出來。但是,如果問基本的概念,很多人就回答不出來了。更有意思的是:如果把計算題出得特別簡單、不再需要采用復雜公式時,多數學生居然回答不出來了!

我們現在的教育,總是考核在“標準前提下,給出標準答案”。學生沒有懷疑“前提”的習慣。這樣的學生有知識,卻不會用知識。
回到前面的問題。用線性回歸可以清晰地分析一個變量的作用。但前提是其它變量的干擾較小、且具有隨機性。解決這個問題的辦法之一,是盡量固定其他變量。科學試驗往往就是這么做。

但工業現場往往受各種約束,總會有很多干擾。而且,這些干擾并不是隨機的。變量選擇有問題時,小的非隨機干擾,就會對分析結果產生很大的影響。所以,做數據分析時,必須時刻警惕非隨機系統干擾的影響,并設法剔除它。


處理和發現非隨機的系統干擾很難。原因是這樣的因素太多。比如,任何一個變量的采集過程,都可能存在非隨機系統干擾。而識別這些干擾,需要更多的數據項。這樣,分析問題時面對的數據項就會越來越多。人的注意力就容易淹沒在數據的海洋中。更糟糕的是:受數據條件制約,有些系統干擾可能就是不可見的。


現場中的有些干擾往往難以排除。筆者曾經遇到過這樣一件事:
某鋼種的性能波動非常大。強度700MPa級的鋼種,波動的標準差就高達60MPa。筆者分析后認為:這是某環節的系統干擾導致的。于是,筆者就設計了一個實驗室試驗、設法避開這種干擾。后來,同事在實驗室里做了這個試驗。他們做了幾十對試樣,每對試樣的強度差不超過3MPa.

對前提做出判斷的時候,往往需要較為全面的專業知識。這是制約數據分析人才“成才率”提高的主要原因。


利用統計軟件,做一次回歸分析只要幾秒鐘的時間。數據分析師的絕大多數時間都用來對數據合理性進行分析。如果自己缺乏專業知識,可能幾分鐘就要去請教別人。別人豈不要煩死了?


合格的數據分析師,不僅要善于與數據打交道,更要善于理解物理對象和物理過程。


作者:郭朝暉(工學博士,教授級高工。企業研發一線工作20年;優也科技信息公司首席科學家;東北大學、上海交大等多所院校兼職教授。國內知名智庫、走向智能研究院的發起人之一。原寶鋼研究院首席研究員)

共有訪客發表了評論 網友評論

  客戶姓名:
郵箱或QQ:
驗證碼: 看不清楚?
主站蜘蛛池模板: 富阳市| 棋牌| 蓝田县| 洛宁县| 乌鲁木齐县| 霸州市| 镇远县| 克拉玛依市| 姜堰市| 泰宁县| 高安市| 长垣县| 宜阳县| 柳林县| 邹平县| 滨州市| 乌拉特中旗| 潮安县| 邓州市| 额尔古纳市| 清涧县| 临澧县| 肥城市| 阿拉善右旗| 安泽县| 平塘县| 桂平市| 余江县| 乡宁县| 枣庄市| 盐津县| 嘉禾县| 屯门区| 榆树市| 洛隆县| 彭泽县| 女性| 自治县| 武宣县| 尼勒克县| 贵港市|