科技大數據的建模與分析技術 周向東 劉德兵 王元卓等著 9787030713865 【台灣高等教育出版社】

圖書均為代購,正常情形下,訂後約兩周可抵台。
物品所在地:中國大陸
原出版社:科學
NT$814
商品編號:
供貨狀況: 尚有庫存

此商品參與的優惠活動

加入最愛
商品介紹
*完成訂單後正常情形下約兩周可抵台
*本賣場提供之資訊僅供參考,以到貨標的為正確資訊。
印行年月:202306*若逾兩年請先於私訊洽詢存貨情況,謝謝。
台灣(台北市)在地出版社,每筆交易均開具統一發票,祝您中獎最高1000萬元。
書名:科技大數據的建模與分析技術
ISBN:9787030713865
出版社:科學
著編譯者:周向東 劉德兵 王元卓等著
叢書名:科技大數據理論與技術叢書
頁數:175
所在地:中國大陸 *此為代購商品
書號:1553330
可大量預訂,請先連絡。

內容簡介
科技大數據的建模理論與分析方法是科技大數據相關技術研究與服務平台建設的重要理論基礎和應用方法論。科技大數據主要由非結構化和複雜結構數據組成,涉及廣泛而豐富的建模理論和方法。《科技大數據的建模與分析技術》內容側重面向科技大數據應用的基於張量的非結構數據建模、知識圖譜及遷移學習等的基本概念及理論,同時介紹相關理論在認知圖譜、跨域圖像分類以及學者研究興趣及機構合作關係挖掘等方面的應用。

精彩書評
本書從模型理論和分析應用的角度介紹了科技大數據相關的基礎表示模型與數據挖掘演算法。具體包括科技大數據的表示模型與學習演算法

目錄

目錄
第一部分 科技大數據的建模理論
第1章 科技大數據的張量表示模型 3
1 1 引言 3
1 2 基於張量分解的表示模型 7
1 3 t-FD演算法 15
1 4 理論誤差界的證明 19
1 5 實驗分析 26
1 6 小結 32
參考文獻 32
第2章 科技大數據知識圖譜 35
2 1 知識圖譜概念及發展 35
2 2 面向科技大數據的知識圖譜 38
2 3 知識圖譜關鍵技術 40
2 4 知識圖譜技術分析 52
參考文獻 55
第3章 科技大數據遷移學習 57
3 1 遷移學習的概念及發展 57
3 2 科技大數據遷移學習的驅動因素 59
3 3 遷移學習相關研究 61
參考文獻 77
第二部分 科技大數據的數據分析技術
第4章 科技情報認知圖譜 87
4 1 科技情報認知圖譜的概念 87
4 2 認知推理 92
4 3 邏輯表達 97
參考文獻 99
第5章 基於深度遷移學習的圖像語義分類 100
5 1 引言 100
5 2 演算法介紹 104
5 3 實驗 113
5 4 小結 118
參考文獻 118
第6章 基於柔性標籤遷移學習的圖像分類 121
6 1 引言 121
6 2 預備知識 123
6 3 MSLT演算法介紹 126
6 4 實驗 135
6 5 小結 139
參考文獻 140
第7章 科技大數據中的學者研究興趣預測 143
7 1 引言 143
7 2 研究興趣預測 146
7 3 自適應屬性選擇的學者研究興趣預測方法 147
7 4 實驗 153
7 5 小結 155
參考文獻 155
第8章 科技大數據中的學者間合著關係預測方法 157
8 1 引言 157
8 2 融合語義與結構信息的學者間合著關係預測方法 158
8 3 實驗 162
8 4 小結 164
參考文獻 164
第9章 科技大數據中的機構間合作關係預測方法 166
9 1 問題介紹 166
9 2 個體性實體與群體性實體 167
9 3 基於表示學習的機構間合作關係預測演算法 169
9 4 實驗 173
9 5 小結 175
參考文獻 175

精彩書摘
第一部分 科技大數據的建模理論
第1章 科技大數據的張量表示模型
科技大數據依託知識發明與發現過程中的推導過程、實驗驗證、研究結論、網路交流等科技情報知識線索,通過表示模型應用和自然語言處理技術,將科技大數據語義化、數據化以及標準化,使之轉化為「自然人—機器—物」三元計算的數據結構基礎,是一種核心知識資源。在人工智慧蓬勃發展的今天,豐富的、高質量的、可操作的數據資源,有助於機器更好地理解知識結構和知識生成過程。同時,語義化、數據化和標準化的科技大數據也有助於人工智慧演算法更好地優化和泛化。
1 1 引言
從宏觀角度來說,科技大數據是一種非數值型數據,包含科學發明和發現過程中長期累積形成的與研發全過程相關的各種非數值型科技信息,涵蓋了基礎研究階段的科技創新決策過程和科技創新發現過程的各類科技信息。*常見的科技大數據是科技文獻數據,它是一種較為規範化的科研產出和技術產出,主要包括期刊論文、學位論文、專利發明、實驗數據以及科技報告等,這類科技大數據的基本特徵為數據結構化程度高、數據集中度高以及數據規範性優良。另一種科技大數據是較為離散的事實性科技數據,主要包括政府、科研機構和企業發布的行業標準、政策法規、時事新聞、各類科研主體的個人網頁,以及社交平台發布的互動式的、動態的、實時的科技信息等,這類科技大數據的基本特徵為數據集中度低、數據非結構化以及數據規範程度不高等。從微觀角度來說,科技大數據既不等同於論文數據,也不是傳統意義上的網路及行業大數據。科技大數據是一種集成科技活動發生數據、科技成果實現數據以及自媒體生成數據的數據集合。科技活動發生數據是由科技行為主體產生的科技實體數據,包括科研概念、科研主題、科研項目、科研人才、科研團隊、科研設備、科研組織、科研機構、學術會議、研究模型、研究方法、科研獎項等;科技成果實現數據包括各科技領域內累積形成的科研數據、科研資料、科研文獻、科研報告、科技報道等承載著科技信息的數據以及知識生成過程中的語義關係、計量關係等;自媒體生成數據是互聯網自媒體每天發布的權威的、互動性較好的科技信息,包括文本類型的科技信息以及新媒體類型的科技信息。
在科技大數據的關係建模中,知識圖譜框架已經成為一種經典的組織結構化知識,並在自然語言處理和計算機視覺信息提取方面發揮著核心作用。以知識圖譜為代表的領域知識在機器學習等技術中可以得到更好的預測結果。在向量表示模型中,數據之間的關係採用有向標記圖來刻畫,其中我們將特定領域的含義與節點和邊相關聯。任何事物都可以充當節點,如作者、研究機構、論文等;邊標籤捕獲節點之間的潛在關係,例如,作者之間的合作關係、作者與科研機構的隸屬關係,以及論文之間的關聯性等。知識圖譜用作應用程序存儲信息的數據結構,可以通過人工輸入、自動化和半自動化方法的組合將信息添加到知識圖譜中,無論採用何種知識錄入方式,都希望記錄的信息能夠被人類輕鬆理解和驗證。雖然知識圖譜可以很好地表徵結構化數據,但數據本身的符號化表示使其很難進一步分析。為了解決這個問題,知識圖譜嵌入的方法被提出並得到了學術界的廣泛關注。具體來說,將知識圖譜中的節點和關係嵌入一個連續的向量空間,可以簡化操作並且保留相應的結構信息。該方法已經在知識圖譜填充、關係抽取、節點檢測等問題中得到了廣泛的應用。
對於一個包含*個實體和*個關係的知識圖譜,知識以*三元組的形式表示與存儲。我們用*來表示一個事實單元,其中*分別表示頭部實體和尾部實體,*代表兩個實體之間的關係,實體間通過關係相互聯結,構成網狀知識結構。這裏*代表全體實體集合,*代表全體關係集合。這種三元組知識表示形式得到了廣泛的應用,然而,它在處理大數據問題時面臨計算效率低等問題。隨著機器學習、深度學習等表示學習技術的蓬勃發展,實體中所蘊含的信息可以表示為稠密低維的實數值向量,從而將實體和關係中的複雜語義關聯置於低維空間進行計算,這種知識庫的構建方式將對實際應用產生重大影響。經典的知識圖譜嵌入包含三個步驟:?表示實體和關係;?定義評分函數;?學習實體和關係。下面介紹兩大類常見的向量嵌入技術:距離平移模型(translational distance model)和語義匹配模型(semantic matching model)。
1 1 1 距離平移模型
距離平移模型利用基於距離的評分函數衡量一個事實作為兩個實體之間距離的合理性。下面主要介紹嵌入空間的轉移(translation on embeddings,TransE)[1]模型及與之相關的拓展模型。
1)TransE
TransE 是*具代表性的距離平移模型,它將實體和關係表示為同一空間中的向量。對於一個給定的事實*,關係向量r可以看作頭部實體向量h到尾部實體向量t的翻譯,並滿足關係:評分函數被定義為和之間的關係,即
當是事實時,我們希望評分函數儘可能大。儘管該模型十分簡潔和高效,但在建模一對多、多對一和多對多等關係時性能較差。例如,在考慮多對一的事實時,如果不同教授隸屬於同一科研機構,那麼不同教授實體在連續向量空間中的嵌入必須相距很近,但考慮到不同教授之間的差異性,這種處理方式存在顯而易見的缺點。為了克服這樣的缺點,一個有效的策略是讓一個實體在參与時有不同的表示關係。這樣一來,即使嵌入的實體或許非常相似,我們也可以在不同的表示關係下將其區分開來。
2)TransH
超平面的轉移(translation on hyperplanes,TransH)[2]通過引入特定關係的超平面,從而以投影的方式區分不同的實體。對於一個給定的事實*,首先將*和*投影到超平面上:
式中,*、*分別表示h、t的投影;wr為投影矩陣。
如果事實*成立,我們假設在超平面上由r連接的投影具有較低的誤差,即*,評分函數可被定義為
由上所述,TransH通過引入映射到特定關係超平面的機制,允許實體在不同關係中扮演不同的角色。
3)TransR
關係空間的轉移(translation on relation space,TransR)[3]則認為不同的關係應該具有不同的語義空間。因此,TransR將實體和關係投影到不同的向量空間中,然後建模頭部實體到尾部實體的翻譯關係。注意到TransR與TransH有非常類似的想法,但TransR引入的是特定關係的空間,而不是超平面。在TransR中,實體被表示為實體空間*中的向量;每個關係都與一個特定的空間*相關聯,並被建模為該空間中的平移向量。給定一個事實*,TransR首先將實體表示形式*和*投影到特定於關係r的空間中,即
式中,*為投影矩陣。因此評分函數可以被定義為
1 1 2 語義匹配模型
1)RESCAL
RESCAL[4]將每個實體與一個向量聯繫起來,以捕獲其潛在的語義。每個關係都表示為一個矩陣,該矩陣模擬了潛在因素之間的成對相互作用。事實*的評分由雙線性函數定義:
式中,*為這些實體的向量表示;*為關係相關的矩陣。該評分捕獲了所有h和t之間成對的交互關係,每一對關係需要*個參數。進一步假設所有*被分解到一個秩1矩陣的公共集合上,即*,其中*代表第i個奇異值,ui和vi分別代表對應的左奇異向量和右奇異向量。TATEC(two and three-way embeddings combination)不僅建模了三元交互*,而且建模了雙向交互,例如,實體和關係之間的交互。評分函數為*,其中*是所有不同關係共享的對角矩陣。
2)DistMult
DistMult[5]通過限制*為對角矩陣來簡化RESCAL。對於每個關係*,它引入了一個向量嵌入*,並要求*。因此評分函數被定義為
該評分只捕獲了*和*在同一維度上的組件之間的成對交互,並將每個關係的參數數量減少到*。然而,由於*對於任意的*和*都成立,該過度簡化的模型只能處理對稱關係,這對於一般的應用來說顯然是不夠強大的。
3)HolE
全息嵌入(holographic embeddings,HolE)[6]將RESCAL的表現性能與DistMult的效率和簡單性相結合,它將實體和關係表示為*中的向量。給定一個事實*,通過使用循環關聯操作,首先將實體表示組合為*,即
式中,「*」表示循環相關性。
然後將複合向量與關係表示進行匹配,以對該事實進行評分,即


詳細資料或其他書籍請至台灣高等教育出版社查詢,查後請於PChome商店街私訊告知ISBN或書號,我們即儘速上架。
規格說明
運送方式
已加入購物車
已更新購物車
網路異常,請重新整理