AI前線面向AI愛好者、開發者和科學家,提供最新最全AI領域技術資訊、一線業界實踐案例、搜羅整理業界技術分享干貨、最新AI論文解讀。每周一節技術分享公開課,助力你全面擁抱人工智能技術。
David Robinson 的推文:
當你把相同的代碼寫了三遍時,請寫一個函數。當你面對面的給過了 3 次完全相同的建議時,請寫一篇博文。
這些領域之間的確有很大程度上的重合。并且,這其中的每一個領域都存在大量的炒作,以至于選擇使用哪一個詞這件事好像是一個跟營銷有關的問題。但是,它們并不是可以隨意互換的。 即使很難用語言表達出來,大多數這些領域里的專家都能憑直覺地理解哪些工作屬于數據科學,哪些工作屬于機器學習或者人工智能。
因此,在這篇文章中,我提出了一個非常簡單的關于這三個領域之間區別的定義:
數據科學產生洞見
機器學習產生預測
人工智能產生行動
要澄清的是,這不是一個充分條件:不是所有符合某個定義的東西就屬于這個領域。(算命先生也產生預測,但我們絕不會認為它們在做機器學習!)這些定義也不是很好的確定一個人的角色和工作的方式(“我是一個數據科學家嗎?”),這樣的問題是與個人關注的方向和經歷有關的。(這對于任何一個關于工作的描述都是對的:我的工作的一部分是寫作但我不是一個專業的作家)。
但是,我認為這些定義在用于區分這三種類型的工作時是非常有用的。并且當你談起這些知識時,這些定義可以讓你避免自己聽起來很蠢。值得注意的是,我采取的是描述主義而不是規定主義的方法:我感興趣的并不是這些術語“應該是什么意思”,而是這個領域的人通常是如何使用它們的。
數據科學產生洞見
數據科學與其他兩個領域的區別在于它的目標其實是人的目標:獲得洞見和理解。Jeff Leek 對數據科學能達到的哪些類型的洞見有一個非常好的定義 ,包括描述性(“普通客戶有 70%的可能去續費”),探索性(“不同的銷售人員有不同的續費率”)和因果關系(“隨機化的實驗表明分配給 Alice 的客戶比分配給 Bob 的客戶更有可能續費”)。
再次強調,并非所有產生洞見的都被認為是數據科學(數據科學的經典定義是,它是統計學、軟件工程和領域專業知識的組合)。但是我們可以用這個定義把它與機器學習和 AI 區分開來。主要的區別在于,在數據科學的工作流程中,總是存在一個人:這個人正在理解這些洞見,觀察圖表,或者從結論中受益。所以,我們不能說“我們的象棋算法使用數據科學來選擇下一步怎么走”或“Google 地圖使用數據科學來推薦行車路線”。
因此,這個關于數據科學的定義強調:
統計推斷
數據可視化
實驗設計
領域知識
溝通
數據科學家可能會使用簡單的工具:他們可以報告百分比,并根據 SQL 查詢制作線圖。他們還可以使用非常復雜的方法:他們可能會使用分布式數據存儲來分析數以萬億計的記錄,開發尖端的統計技術,并構建交互式可視化。無論他們使用什么,他們的目標是更好地了解他們的數據。
機器學習產生預測
我認為機器學習是一個關于預測的領域:“給定某個具有特定特征的實例 X,預測 Y”。這些預測可能是關于未來(“預測這個病人是否會患敗血癥”),但是它們也可能是一些計算機不容易理解的特質(“預測這個圖像是否有鳥 ”)。幾乎所有的 Kaggle 比賽都是機器學習問題:他們提供一些訓練數據,然后看看參賽選手是否能夠對新的例子做出準確的預測。
數據科學和機器學習之間有很多重疊。例如,邏輯回歸可以用來獲取有關關系的洞見(“用戶越有錢,他們購買我們的產品的可能性越大,所以我們應該改變我們的營銷策略”),并做出預測(“這個用戶有 53%的可能性購買我們的產品,所以我們應該把這個產品推薦給他“)。
像隨機森林這樣的模型可解釋性稍差。因此,它更像是屬于機器學習和深度學習等難以解釋的方法。如果你的目標是提取洞見而不是做出預測,這些方法可能會阻礙你的工作。因此,我們可以想象一個包含數據科學和機器學習的“光譜”,在其之上,易于解釋的模型偏向于數據科學這邊,而“黑盒”的模型在機器學習那一邊。
大多數從業者能夠非常舒適地在兩個任務之間來回切換。我在工作中同時使用了機器學習和數據科學:我可能會使用 Stack Overflow 的流量數據訓練出來的模型來確定哪些用戶可能正在尋找工作(這是機器學習),但是也會構建概括性描述和可視化來檢查為什么模型能夠正確工作(這是數據科學)。這項工作是發現你的模型中的缺陷,并與算法偏差作斗爭的一個重要途徑。這是為什么數據科學家經常負責開發產品的機器學習組件。
人工智能產生行動
人工智能是迄今為止這三個領域中最古老也是最廣為人知的,因此定義它是最具挑戰性的。這個詞語被大量的炒作所包圍,這要緣于研究人員,記者以及尋求金錢或關注的創業公司。
Baron Schwartz 的推文:
當你在融資時,它是 AI;當你在招聘時,它是機器學習;當你在寫代碼時,它是線性回歸;當你在調 bug 時,它是 printf()
這讓我內心產生了很不幸的抗拒情緒。因為這意味著一些應該被稱為 AI 的工作沒有被當作 AI。一些研究人員甚至抱怨 AI 的效應:“AI 是我們現在還無法做到的”【腳注 1】。那么我們可以把什么工作稱作 AI?
“人工智能”定義中的一個共同點是自主行動主體執行或推薦行動(例如 Poole,Mackworth 和 Goebel 1998,Russell and Norvig 2003)。一些我認為應該描述為 AI 的系統包括:
游戲算法(深藍,AlphaGo)
機器人和控制理論(運動規劃,行走雙足機器人)
優化算法(Google 地圖選擇路線)
自然語言處理(機器人【腳注 2】)
強化學習
同時,我們可以看到人工智能有很多與其他領域重疊的部分。深度學習在實現機器學習到 AI 的跨越這一方面特別引人注意。典型的用例是對數據進行訓練,然后進行預測,但它卻在 AlphaGo 等游戲算法中獲得了巨大的成功。(這與之前的游戲系統形成了鮮明的對比,比如深藍,它更專注于探索和優化后續的解空間)。
但他們之間也有區別。如果我分析一些銷售數據,發現某一行業的客戶比其他行業的客戶續費的更多(提取洞見),我的輸出是一些數字和圖表,而不是一個特定的行動。(主管人員可能會用這些結論來改變我們的銷售策略,但這種行動不是自主的)這意味著我將會把我的工作形容為數據科學。如果我說:我正在“使用 AI 來改善我們的銷售情況”,那將是非常尷尬的。
Dave Gershgorn 的推文:
請不要看到一個只是訓練過模型的人就說他掌握了 AI 的力量。
人工智能和機器學習之間的區別有點微妙,歷史上機器學習經常被認為是 AI 的一個子領域(尤其是計算機視覺被視作一個經典的 AI 問題)。但是我認為機器學習領域在很大程度上已經從 AI 脫離開來了,部分原因在于上面所說的抗拒情緒:大多數從事預測問題的人不喜歡把自己形容為 AI 研究人員。(有助于實現許多重要的機器學習領域突破的知識,大都來自統計學。而統計學在 AI 領域的其他部分的出現則很少)。這意味著,如果你可以把一個問題描述為“從 Y 預測 X”,我建議避免使用 AI 這個術語。
Amy Hoy 的推文:
按照現在的定義,y=mx+b 是一個可以告訴你一條直線該往哪兒延伸的 AI 機器人。
案例學習:三者如何一起使用?
假設我們正在建造一輛自動駕駛汽車,并且我們正在研究如何停在標志停車旁這樣一個具體的問題。我們需要分別在這三個領域中使用以下技能。
機器學習:汽車必須使用攝像頭識別停車標志。我們構建了包含數百萬個街邊物體照片的數據集,并且訓練一個算法來預測其中哪一個有停車標志。
人工智能:一旦我們的車能識別停車標志,就需要決定何時采取剎車的動作。過早或過晚地剎車都是很危險的,我們需要算法能夠處理不同的道路條件(例如,在一條光滑的道路上,它能認識到它現在不能足夠快地減速),這是一個控制理論問題。
數據科學:在街頭測試中,我們發現汽車的性能不夠好,出現了一些本應該正確地停在停車標志旁的假陰性結果。分析街上的測試數據后,我們獲得的洞見是假陰性所占的比率取決于測試在一天的什么時間進行:自動駕駛車很可能在日出前或日落后錯過停止標志。我們意識到,我們的大部分訓練數據僅包含日光充足環境下的對象。因此我們構建了包含夜間圖像的數據集并再次從機器學習那一步開始做起。
腳注:
不可否認現在很多人把人工智能通常與能夠跨越多個不同領域執行任務的通用人工智能相混淆,甚至與超越人類智能的超人工智能相混淆。這對任何現在稱為“AI”的系統都提出了不切實際的期望。
這里所說的“機器人”是指一個能夠解釋自然語言,然后以某種方式回應的系統。它不同于文本挖掘,其目標是從中獲取洞見(數據科學),也不同于文本分類,其目標是對文檔進行分類(機器學習)。
查看英文原文:
http://varianceexplained.org/r/ds-ml-ai/
微信公眾號 【AI前線】
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學習參考;
2、本站屬于非營利性網站,如涉及版權和名譽問題,請及時與本站聯系,我們將及時做相應處理;
3、歡迎各位網友光臨閱覽,文明上網,依法守規,IP可查。
作者 相關信息
? 昆侖專題 ?
? 十九大報告深度談 ?
? 新征程 新任務 新前景 ?
? 習近平治國理政 理論與實踐 ?
? 我為中國夢獻一策 ?
? 國資國企改革 ?
? 雄安新區建設 ?
? 黨要管黨 從嚴治黨 ?
? 社會調查 ?
圖片新聞