我是一名會計專業(yè)的學(xué)生,由于專業(yè)知識方面的限制,對三篇論文的理解有一定的困難。第一次閱讀完這三篇論文后的真實感受,就是云里霧里和無法理解。但隨著后來老師帶領(lǐng)下不斷深入地學(xué)習(xí),很幸運的是,我還是有所收獲。
正如向老師所說,學(xué)習(xí)這門選修課的目的,并不是要求我們每個人都能夠完全掌握和精通大數(shù)據(jù)與人工智能。一方面不需要給自己這么大的壓力,另一方面也不現(xiàn)實。畢竟念完大學(xué)四年才可能僅僅算作入門的專業(yè),顯而易見需要相當扎實深厚的知識基礎(chǔ)功底作為積淀。對于我們來說,專業(yè)知識固然不在掌握能力范圍之內(nèi)。因此這門課程對我來說,最大的意義不僅僅在于知識,更在于開闊了眼界和視野,拓展了思維的寬度和深度,對于當今乃至未來引領(lǐng)發(fā)展趨勢的技術(shù)有了更深一步地認識。學(xué)習(xí)這門課程,相當于為我們打開了一扇窗(雖然門可能沒有機會進去了),或者說向老師給我們掀起了一個門簾,讓我們有機會往里頭探了一眼。
以下就是我對學(xué)習(xí)了谷歌三篇論文后的收獲的記錄和一個小小的分享。其中可能有專業(yè)知識方面的錯誤,希望能夠得到指正,也希望多多理解。
谷歌三篇論文中的三個主角“Google File System”“Google MapReduce”“Google Bigtable”,均是為了處理大規(guī)模數(shù)據(jù)而誕生的三個重要的工具。所以,首先想要分享對于大數(shù)據(jù)的理解。
大數(shù)據(jù)是什么?在這里主要是指大小超過了常用軟件工具在常規(guī)的運營時間內(nèi)可以承受的收集、管理和處理數(shù)據(jù)能力的數(shù)據(jù)集。
我們可以通過拆分詞語來理解它的意思。
大數(shù)據(jù)的特征首先就在于“大”:這個“大”的程度還不僅僅是一般的大量、巨大、龐大可以描述的過來的,用兩個詞語“浩如煙?!薄昂A俊眮硇稳莸故潜容^貼切。如果用數(shù)學(xué)上的表示則是數(shù)十TB~十幾PB級的數(shù)據(jù)規(guī)模。當然大數(shù)據(jù)除了數(shù)據(jù)量大以外,還包括其多樣性、真實性(含可審計性)、價值密度低、速度快的幾大特性。
那么“數(shù)據(jù)”呢,是指事實或觀察的結(jié)果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經(jīng)加工的原始素材??梢哉f數(shù)據(jù)是信息的表現(xiàn)形式和載體,一方面,它是一切可定量分析信息的記錄,在這不單指狹義上的數(shù)字,還包含具有意義的數(shù)符、文字、圖像、音頻等等;另一方面,數(shù)據(jù)經(jīng)過加工可以成為信息,對信息進行挖掘成為知識,合理應(yīng)用知識可產(chǎn)生價值,最終使人類受益??偟膩碚f,我認為其中運用到了量化的思維對信息進行處理,加以統(tǒng)計分析,從而得出結(jié)論。只要數(shù)據(jù)量越大,那么得到的結(jié)果準確性就越高、結(jié)論的普遍性和科學(xué)性就越強。
在《新人類簡史》中也提到,數(shù)據(jù)是個老掉牙的東西了,從早期的結(jié)繩記事、以月亮圓缺計算歲月,到后來部落內(nèi)部以獵物、采摘數(shù)量計算貢獻,再到每朝每代的土地農(nóng)田、人口糧食、車馬軍隊等等,都涉及到了大量的數(shù)據(jù),只是人們從未以“大”冠之,但其實很早就已經(jīng)出現(xiàn)。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)偉大的技術(shù)革命的開始,物與物之間的聯(lián)系日益密切起來,即使是一件物品幾天內(nèi)被人感知到的動態(tài)數(shù)據(jù)都可以多達古代一個國王一年內(nèi)收集的數(shù)據(jù)量。很顯然,物聯(lián)網(wǎng)上成萬成億的物品,其涉及到數(shù)據(jù)量不得是用海量來形容嗎?由此,大數(shù)據(jù)誕生。“云計算”“人工智能”“智能XX”……隨之而來。
看起來大數(shù)據(jù)一詞被提及的頻次是近幾年才比較高的,但實際上它其實很早就被廣泛地應(yīng)用在我們生活當中了。比如說超市貨架上貨物的陳列規(guī)律、服裝店里通過模特身上安裝的傳感器對衣服取下、放回的次數(shù)統(tǒng)計、淘寶、京東等購物平臺的后臺根據(jù)購買數(shù)據(jù)、瀏覽頁面的頻率對消費者進行廣告精確定位推送、通過電量對該地區(qū)經(jīng)濟發(fā)展水平高低作出推斷、天氣預(yù)報等等方面對大數(shù)據(jù)的運用,幾乎無處不在,與我們的生活密不可分。這些應(yīng)用背后的規(guī)律,正是通過對大數(shù)據(jù)的分析得來的。數(shù)據(jù)本身只是一個結(jié)果,并不具有多大的意義,其意義往往是人們賦予給它的。只有通過對數(shù)據(jù)進行處理、分析和判斷,得出結(jié)論并加以應(yīng)用,才能夠產(chǎn)生價值。所以說,當今挖掘數(shù)據(jù)背后的價值、拓寬它的應(yīng)用領(lǐng)域就顯得尤為重要。這對人才和各個行業(yè)之間的合作方面就有大量的需求。
Google File System(GFS),一個面向大規(guī)模數(shù)據(jù)的分布式文件系統(tǒng),主要用于文件存儲。GFS出現(xiàn)的背景是為了滿足Google 迅速增長的數(shù)據(jù)處理需求。當時的Google公司一方面對數(shù)據(jù)處理有著巨大需求,需要一個支持海量存儲的文件系統(tǒng),另一方面市場上僅有IBM公司可提供可靠的分布式文件系統(tǒng)與硬件,但價格又及其昂貴?,F(xiàn)實條件的冰冷和殘酷碰撞,Google的技術(shù)人員們并沒有向現(xiàn)實低頭。他們開始思考:是否可以在一堆廉價且不可靠的硬件上構(gòu)建一個可靠的分布式文件系統(tǒng)呢?令人振奮的是,他們做到了,他們成功了!GFS的誕生就是一個最好的見證。GFS雖然運行在廉價的普遍硬件設(shè)備之上,但它卻可以為大量的客戶機提供高性能的服務(wù),這很好地解決了當初阻礙他們前進的問題。了解到這背后的故事,我不禁為之觸動:即使現(xiàn)實條件不算好,也有創(chuàng)造奇跡的可能!
“并行式”:我們使用電腦時,經(jīng)常接觸到的C盤、D盤、E盤、F盤就屬于一種單機的物理存儲形式,這種被稱為并行式。
關(guān)于“可靠性”:對于我們再熟悉不過的電話機來說,它的可靠性是由線路來完成的,屬于物理連接,可靠性比較高。從前電話聯(lián)通可少不了接線員。撥號的一頭通過搖動手柄,手搖發(fā)電,接線處信號燈亮起后,接線員接線到撥號地,從而實現(xiàn)電話的聯(lián)通。而現(xiàn)如今我們使用的網(wǎng)絡(luò),則是由“端”進行負責(zé),可靠性就由協(xié)議和軟件來完成。
Google MapReduce,是一種處理海量數(shù)據(jù)的并行編程模式,主要包括映射和化簡兩個方法和體現(xiàn)了化整為零的思維方式。為什么會出現(xiàn)MapReduce呢?這是因為Google擁有著海量的數(shù)據(jù)需要處理,如全球網(wǎng)頁數(shù)據(jù)、郵件數(shù)據(jù)、地圖數(shù)據(jù)、衛(wèi)星圖片……計算問題簡單,但求解困難,數(shù)據(jù)量巨大(PB級),只有分布在成百上千個節(jié)點上并行計算才能在可接受的時間內(nèi)完成。如何進行并行分布式計算?如何分發(fā)待處理數(shù)據(jù)?如何處理分布式計算中的錯誤?這就需要封裝并行化處理、負載均衡、容錯處理、本地化計算等來一一解決。
開發(fā)者需要編寫兩個函數(shù)-key和value。其中我們可以將整個模型的運行過程形象地類比采茶工采茶的流程。那么這里編寫兩個函數(shù),就相當于對采茶工進行技能培訓(xùn):key好比每個采茶工的某一個茶簍,它只允許該種茶葉放入指定的茶簍;value類比每個采茶工采摘所得的茶葉數(shù)量,如張三采集的量是value 1,王五采集的量是value 2。
MapReduce 的操作執(zhí)行流程中,有兩個主體:Master和Worker。前者類似于領(lǐng)導(dǎo),會定時監(jiān)督后者的情況,確定其是否仍在運行。每個worker之間不相干擾,分別完成各自被分配的任務(wù)。
在處理文件時,master 和worker之間會進行交流。若一個worker完成了任務(wù),它會向master報告,等待接收。master接受完畢后又繼續(xù)工作。任務(wù)完成,master也會向worker下發(fā)指令:任務(wù)完成,收工!指令的來來回回,與現(xiàn)實之中人們的溝通交流非常相像。
再來說一下MapReduce的容錯機制,分為兩個部分,一個是worker,另一個是master。worker出現(xiàn)情況,就像采茶過程中采茶工遭遇突發(fā)事件,如遭蛇攻擊、采茶工中暑暈倒等。master如何知曉出現(xiàn)情況呢?它是通過master周期性地向worker下發(fā)指令,通過worker的回應(yīng)來判斷worker是否在正常運行。一旦遇到這種情況,master會重新調(diào)配新的worker頂替。
如果是master出現(xiàn)狀況,原先的master崩潰,那么worker之中就會隨之重新選出新的master,又開始新一輪的工作。使工作能夠有條不紊地進行,不被中斷。
“編程模型”:處理問題的步驟,運用到分布思想。
“并行”:多個CPU同時進行,類似于多個采茶工同時采茶。
“并發(fā)”:CPU在高速運行的狀態(tài)下,從微觀層面看,是單個CPU多個任務(wù)的交替進行。好比“360衛(wèi)士”“暴風(fēng)影音”“QQ”三個軟件同時在運行,那么微觀上,可能就是先運行一段時間360衛(wèi)士,下一段時間運行暴風(fēng)影音,再下一段運行360衛(wèi)士,繼續(xù)是QQ運行一段時間……如此交替下去。
我還想談?wù)勛约簩apReduce的一個想法。我認為MapReduce的設(shè)計主要體現(xiàn)出了一種“化整為零”再“化零為整”的思想。比如,論文中提到,“用戶程序首先調(diào)用的MapReduce庫輸入文件分成M個數(shù)據(jù)片度”?;旧隙际遣捎昧朔指詈筒鸱值姆椒ㄈヌ幚泶罅康臄?shù)據(jù),把問題分解成為大量的“小”任務(wù),很好起到化繁為簡的作用,可以使很多復(fù)雜的問題的得到簡單的解決。
Google Bigtable,則是一個分布式的結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng),同樣是被設(shè)計用來處理海量數(shù)據(jù)(通常是PB級)。它與Chubby、Paxos算法有較多聯(lián)系。
“Chubby”被稱作是“強制性的鎖”,它是是一對一的串行并發(fā)的,具有一致性。在買票系統(tǒng)、銀行系統(tǒng)方面有著非常廣泛的應(yīng)用。
Google的三篇技術(shù)論文意味著世界進入大數(shù)據(jù)時代,數(shù)據(jù)計算速度的極大提升,也為各個領(lǐng)域提供了新思路。
再談?wù)剬W(xué)習(xí)的收獲吧。雖然無法完全理解專業(yè)性知識,但我不僅對大數(shù)據(jù)與人工智能有了進一步的了解和認識,而且還學(xué)習(xí)到了一些分析數(shù)據(jù)的方法、量化分析處理的思維方式,也對日常生活中時常出現(xiàn)的現(xiàn)象有了更深的認識,多了幾個角度去看問題、處理問題。同時,我也不禁被人類的智慧折服,被技術(shù)員面對困難不輕言放棄的態(tài)度和嚴謹做事風(fēng)格所打動。
我想分享一個最近看到的非常令我佩服的一個大數(shù)據(jù)在調(diào)查大學(xué)生心理方面的應(yīng)用的例子,與關(guān)于心理問題的預(yù)防管理有關(guān):某校對00后進入大學(xué)的大學(xué)生進行調(diào)查發(fā)現(xiàn),五千個00后新生里,有將近一百個學(xué)生有嚴重自殺傾向,比例達到驚人的百分之二。于是他們通過學(xué)生的社交狀態(tài)來分析學(xué)生的心理狀態(tài)。每個學(xué)生都有一卡通,里面記錄了學(xué)生在學(xué)校里的生活狀態(tài),比如食堂刷卡、進出圖書館之類。關(guān)系比較親密的同學(xué)之間,前后腳刷卡的可能性很大。我們做過個數(shù)據(jù)調(diào)查,兩個陌生同學(xué),一個月內(nèi)前后腳刷卡的概率只有三百分之一,兩次及以上概率十二萬分之一,三次及以上三千萬分之一。2017年,通過調(diào)查一卡通數(shù)據(jù),找到了校園里八百多名“最孤獨的人”,他們在一年半內(nèi)沒有一個親密好友。而這八百多人里,有一百七十多人,在一年內(nèi)做過心理方面的咨詢或治療。通過這種類型的分析,盡可能的發(fā)現(xiàn)學(xué)生中的潛在心理問題患者,并予以相應(yīng)的幫助。
這個例子給我的震撼極大,通過這些我們平時根本不會多去留意的數(shù)據(jù),深入發(fā)掘,竟然還可以有這么大的用武之地,甚至可以挽救生命。這著實令人震撼!
2016年,“十三五”規(guī)劃建議提出實施國家大數(shù)據(jù)戰(zhàn)略,旨在全面推進我國大數(shù)據(jù)發(fā)展和應(yīng)用。至此,大數(shù)據(jù)戰(zhàn)略上升為國家戰(zhàn)略。國家大數(shù)據(jù)戰(zhàn)略對于中國經(jīng)濟社會發(fā)展的重要地位和時代意義??梢?,大數(shù)據(jù)對于一個國家,甚至是世界的發(fā)展都具有十分重要的意義。大數(shù)據(jù)一方面是人工智能的前提、基礎(chǔ)和支撐,另一方面它與“云計算”“物聯(lián)網(wǎng)”“數(shù)據(jù)挖掘”“智能XX”“區(qū)塊鏈”都有著密不可分的聯(lián)系,或者說都是“拴在一根線上的螞蚱”,它們在各個行業(yè)和領(lǐng)域的應(yīng)用,大大提高了整個社會的生產(chǎn)效率,推動了各行各業(yè)的發(fā)展,惠及了千家萬戶。
在我所學(xué)的會計專業(yè)領(lǐng)域里,成本費用的控制、財務(wù)狀況的統(tǒng)計分析、企業(yè)客戶的往來數(shù)據(jù)分析,大數(shù)據(jù)都已經(jīng)慢慢滲透到其中,大大地提高會計工作人員的工作效率,也便利了領(lǐng)導(dǎo)者和管理者對企業(yè)或是部門的大局把控和企業(yè)戰(zhàn)略走向部署。我想,這對于會計從業(yè)者來說不僅僅是機遇,也更是挑戰(zhàn)。從整個社會的角度來說,我們希望大數(shù)據(jù)能夠更多地與各個行業(yè)的合作,使得整個社會得到加速的發(fā)展。未來可期呀!這也需要我們每一個人腳踏實地地走好腳下的路,才能給未來打下最堅實的基礎(chǔ)!
800萬大學(xué)生都在用的免費論文查重平臺
本文由PaperPP論文查重系統(tǒng)原創(chuàng),轉(zhuǎn)載請注明出處:http://www.xyctw.cn/industry/1810 .html