精品女同一区二区三区亚洲_99re热这里只有精品视频首页_特级免费毛片_韩国大尺度吃奶做爰恋爱的味道_www成人精品视频在线观看_日本高清一道本_中国免费高清在线观看_日韩一级特黄大片_a尤物欧美欧美青青草伊人_亚洲成A∧人片在线观看无码

新聞
中國節(jié)能網(wǎng)

人機協(xié)作是如何自動化分類數(shù)據(jù)的?

   2016-08-29 大數(shù)據(jù)文摘1230
核心提示:人工智能的倡導者與以人為中心的方法的支持者之間的爭論其實是一個錯誤的二分法。機器當然可以幫助人們解決面對的問題,但是它們很少能單獨完

人工智能的倡導者與以人為中心的方法的支持者之間的爭論其實是一個錯誤的二分法。機器當然可以幫助人們解決面對的問題,但是它們很少能單獨完成任務。為了更有效,機器必須向人類學習與人相關的知識。創(chuàng)建和實現(xiàn)準確的人工智能系統(tǒng)要求人的知識的輸入。

這并不意味著我們不能從自動化和人工智能上得到應有的效率優(yōu)勢。人類的輸入并不需要很多的時間及精力的投入就可以收集到。換句話說,讓機器不通過直接詢問人類問題,但進而回答與人類有關的問題是可能的。

比如,谷歌通過觀察人們點擊哪些頁面來學習哪些網(wǎng)頁是人們喜歡的。當將這些作為PageRank算法的輸入的鏈接推薦時,這些在線信息的產生者不是有意與谷歌電腦交互,他們是與人類觀眾交流。谷歌只是簡單地進行“偷聽”,就像寶寶通過反復的聽到許多成年進行的對話來學習她的語言。學習人們的自然模式和被動信號是計算機獲取有用的知識的最有效的途徑之一。

智能“竊聽”計算機的角色

在一個組織中,有大量的消息來源,可以讓一個智能竊聽計算機能夠學習數(shù)據(jù)分析師如何與他們的數(shù)據(jù)庫進行交互,以及它們應該怎么做:

查詢日志

許多查詢“對話”都會被存儲在查詢日志中。一個查詢日志中的一條記錄可能展示了用戶Jdoe寫了一個查詢用來從一個客戶表與一個事務表的連接中選取一些列,并通過時間進行過濾。這一事件暗示了Jdoe可能知道并且對那兩個表感興趣,以及那些表可以以此種方式進行連接。如果許多不同的用戶針對這些表中的一個進行查詢時,那表示那個表在組織中十分重要。這類信息對于一個需要加緊熟悉數(shù)據(jù)環(huán)境的新員工以及需要優(yōu)先排序數(shù)據(jù)文檔的處理是有用的。如果Jdoe針對事務表寫了格外多的查詢,那么這意味著她可能是這方面的專家。并且如果許多在事務表上執(zhí)行的查詢包含數(shù)據(jù)過濾器(并且如果所有不需要幾百小時來運行的查詢會經常被取消),這就是一個明顯的信號,說明未來的查詢應該包含這個過濾器。日志包含了豐富的知識,說明重要的是什么,對誰重要,誰是專家,以及數(shù)據(jù)應該怎樣優(yōu)化地被過濾、連接和使用。但前提是你知道如何閱讀這些信號。

商業(yè)智能工具

另外一種人們與他們的數(shù)據(jù)進行對話的記錄可以在商業(yè)智能工具中發(fā)現(xiàn)。如果我在Tableau的工作簿中制作了一個圖表,其中y軸叫做“收入”,并且我使用事務表中的數(shù)量列的總和來計算該值,我就有效地提供了我對收入的定義。一個計算機能夠將這個定義與其他標記為“收入”的軸進行對比,并且應用各種技術來評估這些定義在邏輯上是否等價。

數(shù)據(jù)血緣繼承

在沒有許多人類輸入的情況下,計算機可以繪制出一個組織中所有數(shù)據(jù)資產的來源和出處圖,從基本表到產生的報告,以及之間的ETL腳本和SQL創(chuàng)建語句。那個圖可以用來放大人類的效用。例如,由于腐敗變質是順流而下的,一個重要的來源表報告的數(shù)據(jù)質量問題能夠成為一個數(shù)據(jù)質量告警向下傳播到上千個表和報告指標上。

自然語言語料庫

難以理解的字段名能夠代表數(shù)據(jù)分析部門面臨的一個主要挑戰(zhàn)。例如Cmply_bin中的bin代表的是什么?inis_bin或者bin_nbr里又是什么意思?通過在內部維基或者商業(yè)智能工具中掃描已完成的文檔,計算機可以構建一個語言模型,包含可能的候選項:“bin”在A/B測試中是桶的同義詞,或者也可以是單詞“binary”的縮寫,也可以是“Buy it Now”的首字母縮寫。在學習“成人”(與嬰兒的比喻對應)的語法之后,計算機可以生成一個消歧引擎,基于詞的排列搭配和上下文線索。拼寫規(guī)則和自然語言處理技術都可以對已有的組織文檔中存在的語料庫進行處理。

數(shù)據(jù)的值

數(shù)據(jù)的值本身也可以提供豐富的信號。某些文檔中的九位字符串看上去可能是社保號碼,特別是那些名字為soc_sec_num,ssn或者scl_scrty_nbr的字段。通過上面所述的數(shù)據(jù)的傳承和連接,這些值可以追溯到其他有不太明顯的標簽的字段。因此,放置在其中一個包含敏感信息的字段上的標志可以傳播到其余部分,提高了整個數(shù)據(jù)集的安全性。

有知識的人類訓練師的角色

對于所有的文檔來說,從一個可能敏感的信息的分類到一個字段名的英語翻譯,再到一個計算(如求和)或一個度量指標(如收入)的映射,計算機可以提供具有相當置信度的猜測,之后具有相關知識的人可以進行確認。這種確認不僅僅是另一個人對其進行標注從而增加可信度,更是在教計算機,使得它對自己未來的猜測更為自信。

許多現(xiàn)代的數(shù)據(jù)驅動的組織都在積極地生成數(shù)據(jù)目錄,這是一種綜合性的存儲,包括一個組織中的所有的數(shù)據(jù)資產,它們的質量和來源,以及它們應該如何使用。只通過人力來試圖建立這種工件在有限的資源下是很難完成的。而完全自動化的項目(例如讓計算機自行抓取數(shù)據(jù),不需要人為輸入)通常會帶來不準確和可信度不高的結果。

結 論

人類在查詢日志、BI工具、維基、譜系、數(shù)據(jù)值這些場景里,以及它們之間的各種連接時留下了大量的隱藏信號。通過從中提煉出知識,計算機可以學習一個數(shù)據(jù)環(huán)境,它是如何工作的,以及它過去是如何工作和應該如何工作等等重要信息,并由此自動化地填充一個數(shù)據(jù)目錄分類。通過具有相關知識的人的顯式反饋,計算機可以提高數(shù)據(jù)目錄分類的廣度和精度。

計算機猜測,專家確認,而后計算機再學習,更好的猜測,人類受益。當人與計算機進行協(xié)作,我們人類的需要花費的力氣可以被最小化,而我們得到的收益被最大化。這在人和計算機的世界都是最好不過的結果。

 
舉報收藏 0評論 0
 
更多>同類新聞
推薦圖文
推薦新聞
點擊排行
網(wǎng)站首頁  |  關于我們  |  我們宗旨  |  我們使命  |  我們愿景  |  組織機構  |  專家機構  |  機構分布  |  領導機構  |  管理團隊  |  聯(lián)系方式  |  網(wǎng)站地圖  |  排名推廣  |  廣告服務  |  積分換禮  |  網(wǎng)站留言  |  京ICP備050212號-1