我是一名會(huì)計(jì)專業(yè)的學(xué)生,由于專業(yè)知識(shí)方面的限制,對(duì)三篇論文的理解有一定的困難。第一次閱讀完這三篇論文后的真實(shí)感受,就是云里霧里和無(wú)法理解。但隨著后來(lái)老師帶領(lǐng)下不斷深入地學(xué)習(xí),很幸運(yùn)的是,我還是有所收獲。
正如向老師所說(shuō),學(xué)習(xí)這門選修課的目的,并不是要求我們每個(gè)人都能夠完全掌握和精通大數(shù)據(jù)與人工智能。一方面不需要給自己這么大的壓力,另一方面也不現(xiàn)實(shí)。畢竟念完大學(xué)四年才可能僅僅算作入門的專業(yè),顯而易見(jiàn)需要相當(dāng)扎實(shí)深厚的知識(shí)基礎(chǔ)功底作為積淀。對(duì)于我們來(lái)說(shuō),專業(yè)知識(shí)固然不在掌握能力范圍之內(nèi)。因此這門課程對(duì)我來(lái)說(shuō),最大的意義不僅僅在于知識(shí),更在于開(kāi)闊了眼界和視野,拓展了思維的寬度和深度,對(duì)于當(dāng)今乃至未來(lái)引領(lǐng)發(fā)展趨勢(shì)的技術(shù)有了更深一步地認(rèn)識(shí)。學(xué)習(xí)這門課程,相當(dāng)于為我們打開(kāi)了一扇窗(雖然門可能沒(méi)有機(jī)會(huì)進(jìn)去了),或者說(shuō)向老師給我們掀起了一個(gè)門簾,讓我們有機(jī)會(huì)往里頭探了一眼。
以下就是我對(duì)學(xué)習(xí)了谷歌三篇論文后的收獲的記錄和一個(gè)小小的分享。其中可能有專業(yè)知識(shí)方面的錯(cuò)誤,希望能夠得到指正,也希望多多理解。
谷歌三篇論文中的三個(gè)主角“Google File System”“Google MapReduce”“Google Bigtable”,均是為了處理大規(guī)模數(shù)據(jù)而誕生的三個(gè)重要的工具。所以,首先想要分享對(duì)于大數(shù)據(jù)的理解。
大數(shù)據(jù)是什么?在這里主要是指大小超過(guò)了常用軟件工具在常規(guī)的運(yùn)營(yíng)時(shí)間內(nèi)可以承受的收集、管理和處理數(shù)據(jù)能力的數(shù)據(jù)集。
我們可以通過(guò)拆分詞語(yǔ)來(lái)理解它的意思。
大數(shù)據(jù)的特征首先就在于“大”:這個(gè)“大”的程度還不僅僅是一般的大量、巨大、龐大可以描述的過(guò)來(lái)的,用兩個(gè)詞語(yǔ)“浩如煙?!薄昂A俊眮?lái)形容倒是比較貼切。如果用數(shù)學(xué)上的表示則是數(shù)十TB~十幾PB級(jí)的數(shù)據(jù)規(guī)模。當(dāng)然大數(shù)據(jù)除了數(shù)據(jù)量大以外,還包括其多樣性、真實(shí)性(含可審計(jì)性)、價(jià)值密度低、速度快的幾大特性。
那么“數(shù)據(jù)”呢,是指事實(shí)或觀察的結(jié)果,是對(duì)客觀事物的邏輯歸納,是用于表示客觀事物的未經(jīng)加工的原始素材。可以說(shuō)數(shù)據(jù)是信息的表現(xiàn)形式和載體,一方面,它是一切可定量分析信息的記錄,在這不單指狹義上的數(shù)字,還包含具有意義的數(shù)符、文字、圖像、音頻等等;另一方面,數(shù)據(jù)經(jīng)過(guò)加工可以成為信息,對(duì)信息進(jìn)行挖掘成為知識(shí),合理應(yīng)用知識(shí)可產(chǎn)生價(jià)值,最終使人類受益??偟膩?lái)說(shuō),我認(rèn)為其中運(yùn)用到了量化的思維對(duì)信息進(jìn)行處理,加以統(tǒng)計(jì)分析,從而得出結(jié)論。只要數(shù)據(jù)量越大,那么得到的結(jié)果準(zhǔn)確性就越高、結(jié)論的普遍性和科學(xué)性就越強(qiáng)。
在《新人類簡(jiǎn)史》中也提到,數(shù)據(jù)是個(gè)老掉牙的東西了,從早期的結(jié)繩記事、以月亮圓缺計(jì)算歲月,到后來(lái)部落內(nèi)部以獵物、采摘數(shù)量計(jì)算貢獻(xiàn),再到每朝每代的土地農(nóng)田、人口糧食、車馬軍隊(duì)等等,都涉及到了大量的數(shù)據(jù),只是人們從未以“大”冠之,但其實(shí)很早就已經(jīng)出現(xiàn)。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)偉大的技術(shù)革命的開(kāi)始,物與物之間的聯(lián)系日益密切起來(lái),即使是一件物品幾天內(nèi)被人感知到的動(dòng)態(tài)數(shù)據(jù)都可以多達(dá)古代一個(gè)國(guó)王一年內(nèi)收集的數(shù)據(jù)量。很顯然,物聯(lián)網(wǎng)上成萬(wàn)成億的物品,其涉及到數(shù)據(jù)量不得是用海量來(lái)形容嗎?由此,大數(shù)據(jù)誕生。“云計(jì)算”“人工智能”“智能XX”……隨之而來(lái)。
看起來(lái)大數(shù)據(jù)一詞被提及的頻次是近幾年才比較高的,但實(shí)際上它其實(shí)很早就被廣泛地應(yīng)用在我們生活當(dāng)中了。比如說(shuō)超市貨架上貨物的陳列規(guī)律、服裝店里通過(guò)模特身上安裝的傳感器對(duì)衣服取下、放回的次數(shù)統(tǒng)計(jì)、淘寶、京東等購(gòu)物平臺(tái)的后臺(tái)根據(jù)購(gòu)買數(shù)據(jù)、瀏覽頁(yè)面的頻率對(duì)消費(fèi)者進(jìn)行廣告精確定位推送、通過(guò)電量對(duì)該地區(qū)經(jīng)濟(jì)發(fā)展水平高低作出推斷、天氣預(yù)報(bào)等等方面對(duì)大數(shù)據(jù)的運(yùn)用,幾乎無(wú)處不在,與我們的生活密不可分。這些應(yīng)用背后的規(guī)律,正是通過(guò)對(duì)大數(shù)據(jù)的分析得來(lái)的。數(shù)據(jù)本身只是一個(gè)結(jié)果,并不具有多大的意義,其意義往往是人們賦予給它的。只有通過(guò)對(duì)數(shù)據(jù)進(jìn)行處理、分析和判斷,得出結(jié)論并加以應(yīng)用,才能夠產(chǎn)生價(jià)值。所以說(shuō),當(dāng)今挖掘數(shù)據(jù)背后的價(jià)值、拓寬它的應(yīng)用領(lǐng)域就顯得尤為重要。這對(duì)人才和各個(gè)行業(yè)之間的合作方面就有大量的需求。
Google File System(GFS),一個(gè)面向大規(guī)模數(shù)據(jù)的分布式文件系統(tǒng),主要用于文件存儲(chǔ)。GFS出現(xiàn)的背景是為了滿足Google 迅速增長(zhǎng)的數(shù)據(jù)處理需求。當(dāng)時(shí)的Google公司一方面對(duì)數(shù)據(jù)處理有著巨大需求,需要一個(gè)支持海量存儲(chǔ)的文件系統(tǒng),另一方面市場(chǎng)上僅有IBM公司可提供可靠的分布式文件系統(tǒng)與硬件,但價(jià)格又及其昂貴?,F(xiàn)實(shí)條件的冰冷和殘酷碰撞,Google的技術(shù)人員們并沒(méi)有向現(xiàn)實(shí)低頭。他們開(kāi)始思考:是否可以在一堆廉價(jià)且不可靠的硬件上構(gòu)建一個(gè)可靠的分布式文件系統(tǒng)呢?令人振奮的是,他們做到了,他們成功了!GFS的誕生就是一個(gè)最好的見(jiàn)證。GFS雖然運(yùn)行在廉價(jià)的普遍硬件設(shè)備之上,但它卻可以為大量的客戶機(jī)提供高性能的服務(wù),這很好地解決了當(dāng)初阻礙他們前進(jìn)的問(wèn)題。了解到這背后的故事,我不禁為之觸動(dòng):即使現(xiàn)實(shí)條件不算好,也有創(chuàng)造奇跡的可能!
“并行式”:我們使用電腦時(shí),經(jīng)常接觸到的C盤、D盤、E盤、F盤就屬于一種單機(jī)的物理存儲(chǔ)形式,這種被稱為并行式。
關(guān)于“可靠性”:對(duì)于我們?cè)偈煜げ贿^(guò)的電話機(jī)來(lái)說(shuō),它的可靠性是由線路來(lái)完成的,屬于物理連接,可靠性比較高。從前電話聯(lián)通可少不了接線員。撥號(hào)的一頭通過(guò)搖動(dòng)手柄,手搖發(fā)電,接線處信號(hào)燈亮起后,接線員接線到撥號(hào)地,從而實(shí)現(xiàn)電話的聯(lián)通。而現(xiàn)如今我們使用的網(wǎng)絡(luò),則是由“端”進(jìn)行負(fù)責(zé),可靠性就由協(xié)議和軟件來(lái)完成。
Google MapReduce,是一種處理海量數(shù)據(jù)的并行編程模式,主要包括映射和化簡(jiǎn)兩個(gè)方法和體現(xiàn)了化整為零的思維方式。為什么會(huì)出現(xiàn)MapReduce呢?這是因?yàn)镚oogle擁有著海量的數(shù)據(jù)需要處理,如全球網(wǎng)頁(yè)數(shù)據(jù)、郵件數(shù)據(jù)、地圖數(shù)據(jù)、衛(wèi)星圖片……計(jì)算問(wèn)題簡(jiǎn)單,但求解困難,數(shù)據(jù)量巨大(PB級(jí)),只有分布在成百上千個(gè)節(jié)點(diǎn)上并行計(jì)算才能在可接受的時(shí)間內(nèi)完成。如何進(jìn)行并行分布式計(jì)算?如何分發(fā)待處理數(shù)據(jù)?如何處理分布式計(jì)算中的錯(cuò)誤?這就需要封裝并行化處理、負(fù)載均衡、容錯(cuò)處理、本地化計(jì)算等來(lái)一一解決。
開(kāi)發(fā)者需要編寫兩個(gè)函數(shù)-key和value。其中我們可以將整個(gè)模型的運(yùn)行過(guò)程形象地類比采茶工采茶的流程。那么這里編寫兩個(gè)函數(shù),就相當(dāng)于對(duì)采茶工進(jìn)行技能培訓(xùn):key好比每個(gè)采茶工的某一個(gè)茶簍,它只允許該種茶葉放入指定的茶簍;value類比每個(gè)采茶工采摘所得的茶葉數(shù)量,如張三采集的量是value 1,王五采集的量是value 2。
MapReduce 的操作執(zhí)行流程中,有兩個(gè)主體:Master和Worker。前者類似于領(lǐng)導(dǎo),會(huì)定時(shí)監(jiān)督后者的情況,確定其是否仍在運(yùn)行。每個(gè)worker之間不相干擾,分別完成各自被分配的任務(wù)。
在處理文件時(shí),master 和worker之間會(huì)進(jìn)行交流。若一個(gè)worker完成了任務(wù),它會(huì)向master報(bào)告,等待接收。master接受完畢后又繼續(xù)工作。任務(wù)完成,master也會(huì)向worker下發(fā)指令:任務(wù)完成,收工!指令的來(lái)來(lái)回回,與現(xiàn)實(shí)之中人們的溝通交流非常相像。
再來(lái)說(shuō)一下MapReduce的容錯(cuò)機(jī)制,分為兩個(gè)部分,一個(gè)是worker,另一個(gè)是master。worker出現(xiàn)情況,就像采茶過(guò)程中采茶工遭遇突發(fā)事件,如遭蛇攻擊、采茶工中暑暈倒等。master如何知曉出現(xiàn)情況呢?它是通過(guò)master周期性地向worker下發(fā)指令,通過(guò)worker的回應(yīng)來(lái)判斷worker是否在正常運(yùn)行。一旦遇到這種情況,master會(huì)重新調(diào)配新的worker頂替。
如果是master出現(xiàn)狀況,原先的master崩潰,那么worker之中就會(huì)隨之重新選出新的master,又開(kāi)始新一輪的工作。使工作能夠有條不紊地進(jìn)行,不被中斷。
“編程模型”:處理問(wèn)題的步驟,運(yùn)用到分布思想。
“并行”:多個(gè)CPU同時(shí)進(jìn)行,類似于多個(gè)采茶工同時(shí)采茶。
“并發(fā)”:CPU在高速運(yùn)行的狀態(tài)下,從微觀層面看,是單個(gè)CPU多個(gè)任務(wù)的交替進(jìn)行。好比“360衛(wèi)士”“暴風(fēng)影音”“QQ”三個(gè)軟件同時(shí)在運(yùn)行,那么微觀上,可能就是先運(yùn)行一段時(shí)間360衛(wèi)士,下一段時(shí)間運(yùn)行暴風(fēng)影音,再下一段運(yùn)行360衛(wèi)士,繼續(xù)是QQ運(yùn)行一段時(shí)間……如此交替下去。
我還想談?wù)勛约簩?duì)MapReduce的一個(gè)想法。我認(rèn)為MapReduce的設(shè)計(jì)主要體現(xiàn)出了一種“化整為零”再“化零為整”的思想。比如,論文中提到,“用戶程序首先調(diào)用的MapReduce庫(kù)輸入文件分成M個(gè)數(shù)據(jù)片度”?;旧隙际遣捎昧朔指詈筒鸱值姆椒ㄈヌ幚泶罅康臄?shù)據(jù),把問(wèn)題分解成為大量的“小”任務(wù),很好起到化繁為簡(jiǎn)的作用,可以使很多復(fù)雜的問(wèn)題的得到簡(jiǎn)單的解決。
Google Bigtable,則是一個(gè)分布式的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng),同樣是被設(shè)計(jì)用來(lái)處理海量數(shù)據(jù)(通常是PB級(jí))。它與Chubby、Paxos算法有較多聯(lián)系。
“Chubby”被稱作是“強(qiáng)制性的鎖”,它是是一對(duì)一的串行并發(fā)的,具有一致性。在買票系統(tǒng)、銀行系統(tǒng)方面有著非常廣泛的應(yīng)用。
Google的三篇技術(shù)論文意味著世界進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)計(jì)算速度的極大提升,也為各個(gè)領(lǐng)域提供了新思路。
再談?wù)剬W(xué)習(xí)的收獲吧。雖然無(wú)法完全理解專業(yè)性知識(shí),但我不僅對(duì)大數(shù)據(jù)與人工智能有了進(jìn)一步的了解和認(rèn)識(shí),而且還學(xué)習(xí)到了一些分析數(shù)據(jù)的方法、量化分析處理的思維方式,也對(duì)日常生活中時(shí)常出現(xiàn)的現(xiàn)象有了更深的認(rèn)識(shí),多了幾個(gè)角度去看問(wèn)題、處理問(wèn)題。同時(shí),我也不禁被人類的智慧折服,被技術(shù)員面對(duì)困難不輕言放棄的態(tài)度和嚴(yán)謹(jǐn)做事風(fēng)格所打動(dòng)。
我想分享一個(gè)最近看到的非常令我佩服的一個(gè)大數(shù)據(jù)在調(diào)查大學(xué)生心理方面的應(yīng)用的例子,與關(guān)于心理問(wèn)題的預(yù)防管理有關(guān):某校對(duì)00后進(jìn)入大學(xué)的大學(xué)生進(jìn)行調(diào)查發(fā)現(xiàn),五千個(gè)00后新生里,有將近一百個(gè)學(xué)生有嚴(yán)重自殺傾向,比例達(dá)到驚人的百分之二。于是他們通過(guò)學(xué)生的社交狀態(tài)來(lái)分析學(xué)生的心理狀態(tài)。每個(gè)學(xué)生都有一卡通,里面記錄了學(xué)生在學(xué)校里的生活狀態(tài),比如食堂刷卡、進(jìn)出圖書館之類。關(guān)系比較親密的同學(xué)之間,前后腳刷卡的可能性很大。我們做過(guò)個(gè)數(shù)據(jù)調(diào)查,兩個(gè)陌生同學(xué),一個(gè)月內(nèi)前后腳刷卡的概率只有三百分之一,兩次及以上概率十二萬(wàn)分之一,三次及以上三千萬(wàn)分之一。2017年,通過(guò)調(diào)查一卡通數(shù)據(jù),找到了校園里八百多名“最孤獨(dú)的人”,他們?cè)谝荒臧雰?nèi)沒(méi)有一個(gè)親密好友。而這八百多人里,有一百七十多人,在一年內(nèi)做過(guò)心理方面的咨詢或治療。通過(guò)這種類型的分析,盡可能的發(fā)現(xiàn)學(xué)生中的潛在心理問(wèn)題患者,并予以相應(yīng)的幫助。
這個(gè)例子給我的震撼極大,通過(guò)這些我們平時(shí)根本不會(huì)多去留意的數(shù)據(jù),深入發(fā)掘,竟然還可以有這么大的用武之地,甚至可以挽救生命。這著實(shí)令人震撼!
2016年,“十三五”規(guī)劃建議提出實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,旨在全面推進(jìn)我國(guó)大數(shù)據(jù)發(fā)展和應(yīng)用。至此,大數(shù)據(jù)戰(zhàn)略上升為國(guó)家戰(zhàn)略。國(guó)家大數(shù)據(jù)戰(zhàn)略對(duì)于中國(guó)經(jīng)濟(jì)社會(huì)發(fā)展的重要地位和時(shí)代意義??梢?jiàn),大數(shù)據(jù)對(duì)于一個(gè)國(guó)家,甚至是世界的發(fā)展都具有十分重要的意義。大數(shù)據(jù)一方面是人工智能的前提、基礎(chǔ)和支撐,另一方面它與“云計(jì)算”“物聯(lián)網(wǎng)”“數(shù)據(jù)挖掘”“智能XX”“區(qū)塊鏈”都有著密不可分的聯(lián)系,或者說(shuō)都是“拴在一根線上的螞蚱”,它們?cè)诟鱾€(gè)行業(yè)和領(lǐng)域的應(yīng)用,大大提高了整個(gè)社會(huì)的生產(chǎn)效率,推動(dòng)了各行各業(yè)的發(fā)展,惠及了千家萬(wàn)戶。
在我所學(xué)的會(huì)計(jì)專業(yè)領(lǐng)域里,成本費(fèi)用的控制、財(cái)務(wù)狀況的統(tǒng)計(jì)分析、企業(yè)客戶的往來(lái)數(shù)據(jù)分析,大數(shù)據(jù)都已經(jīng)慢慢滲透到其中,大大地提高會(huì)計(jì)工作人員的工作效率,也便利了領(lǐng)導(dǎo)者和管理者對(duì)企業(yè)或是部門的大局把控和企業(yè)戰(zhàn)略走向部署。我想,這對(duì)于會(huì)計(jì)從業(yè)者來(lái)說(shuō)不僅僅是機(jī)遇,也更是挑戰(zhàn)。從整個(gè)社會(huì)的角度來(lái)說(shuō),我們希望大數(shù)據(jù)能夠更多地與各個(gè)行業(yè)的合作,使得整個(gè)社會(huì)得到加速的發(fā)展。未來(lái)可期呀!這也需要我們每一個(gè)人腳踏實(shí)地地走好腳下的路,才能給未來(lái)打下最堅(jiān)實(shí)的基礎(chǔ)!
800萬(wàn)大學(xué)生都在用的免費(fèi)論文查重平臺(tái)
本文由PaperPP論文查重系統(tǒng)原創(chuàng),轉(zhuǎn)載請(qǐng)注明出處:http://www.xyctw.cn/industry/1810 .html