第266章 先睡了

第266章 先睡了

日常生活和經濟全球化之間存在密切的關係。經濟全球化是一個涉及全球範圍內經濟活動、貿易、投資、金融等方面的概念,它使得各國經濟相互依存、相互聯繫,形成一個全球範圍的有機經濟整體。這種全球化的趨勢對人們的日常生活產生了深遠的影響。

以購物為例,經濟全球化使得人們可以輕鬆地購買到來自世界各地的商品。無論是在大型超市、電商平台還是實體店,我們都可以看到來自不同國家的商品琳琅滿目。這些商品可能包括食品、衣物、電子產品等,它們不僅豐富了我們的選擇,也提高了我們的生活質量。

文本相似度計算是自然語言處理(NLP)領域的一個重要研究方向,它旨在衡量兩個或多個文

本之間的相似程度。文本相似度計算的原理基於兩個主要概念:共性和差異。共性指的是兩個文本

之間共同擁有的信息或特徵,而差異則是指它們之間的不同之處。當兩個文本的共性越大、差異越

小,它們之間的相似度就越高。

文本相似度計算可以根據不同的分類標準進行分類。首先基於統計的方法分類,這種方法主要

關注文本中詞語的出現頻率和分佈,通過統計信息來計算文本之間的相似度。常見的基於統計的方

法有餘弦相似度、Jaccard相似度等。其次是基於語義的方法分類,這種方法試圖理解文本的含義

和上下文,通過比較文本的語義信息來計算相似度。常見的基於語義的方法有基於詞向量的方法

(如Word2Vec、GloVe等)和基於主題模型的方法(如LDA、PLSA等)。最後是基於機器學習的方

法分類,這種方法利用機器學習算法來訓練模型,通過模型來預測文本之間的相似度。常見的基於

機器學習的方法有支持向量機(SVM)、神經網絡等。

目前,在國內外,文本相似度計算已經取得了豐富的成果。國內方面,清華大學等機構的研究

者提出了基於深度學習的文本相似度計算方法,利用神經網絡模型來捕捉文本的深層語義信息,實

現了較高的相似度計算精度。江蘇師範大學的研究者提出了利用《新華字典》構建向量空間來做中

文文本語義相似度分析的方法,該方法在中文文本相似度計算方面取得了顯着的效果。放眼國外,

Google的研究者提出了Word2Vec算法,該算法將詞語表示為高維向量空間中的點,通過計算點之

間的距離來衡量詞語之間的相似度。Word2Vec算法在文本相似度計算領域具有廣泛的影響。斯坦

福大學等機構的研究者提出了BERT模型,該模型通過大量的無監督學習來捕捉文本的上下文信

息,可以實現高精度的文本相似度計算。BERT模型在多項自然語言處理任務中均取得了優異的表

現。

2.5本章小結

本章主要介紹了本項目中使用的四種關鍵技術與模型。這些技術主要基於大型語言模型,並且

依賴於RAG技術的原理。介紹了知識抽取技術,它利用先進的自然語言處理技術從文本中提取有意

義的信息和知識,隨後討論了文本處理中所使用的RAG技術,該技術可以顯着提高大型語言模型在

專業領域的性能,增強信息檢索的準確性和效率。最後探討了在文本比對過程中所需的相似度計算

方法,這對於評估文本之間的相似程度至關重要。

了解清楚數據獲取來源后,進行數據採集,數據採集的方法包括自動化和手動兩種方式:

自動化採集:利用編寫的Python腳本通過API接口自動從上述數據庫和期刊中下載文獻和元

數據,部分代碼如圖3.2所示。這種方法的優點是效率高,可以大量快速地收集數據。使用

BeautifulSoup和Requests庫從開放獲取的期刊網站爬取數據。

手動採集:通過訪問圖書館、研究機構以及聯繫文章作者等方式獲取不易自動下載的資源。雖

然此方法更費時,但有助於獲取更全面的數據集,特別是一些最新或尚未公開的研究成果。

將兩種方法採集到的文獻數據進行匯總,最大範圍的將有關電力LCA領域的英文文獻進行匯

總,共獲得507篇。

最後是將各個途徑獲取到的文獻數據和元數據匯總,進行數據預處理。

採集到的數據需經過清洗和預處理,才能用於後續的分析。

數據預處理的步驟包括:

數據清洗:刪除重複的記錄,校正錯誤的數據格式,填補缺失值。

數據整合:將來自不同來源的數據整合到一個統一的格式和數據庫中,如表3.1所示,以便進

小主,這個章節後面還有哦,請點擊下一頁繼續閱讀,後面更精彩!

為了使後續知識庫生成更加準確與完善,對文獻具體內容進行篩選。例如部分文獻中並未提到

所用數據,而是指出所用數據庫連結,如圖3.3所示,在對該篇文獻進行解析后,數據部分就是欠

缺的,最終構建的知識庫就不完整,在調用大模型回答相關問題時,極大概率產生幻覺。因此為了

構建更為準確的專業模型,對爬取下來的507篇文獻進行篩選,選擇包括流程圖(system

boundaries)、各單元過程或生產環節的投入(input),產出(output),數據(),以及數據的時間、地點、獲取方法、技術細節的文獻作為最後應用的數據。核對內容

后的文獻數據集共98篇英文文獻。

數據預處理

Unstructured庫是一個強大的工具,專為處理非結構化數據設計,具體流程如圖3.7所示,

如從文本文檔、PDF文件或網頁中提取數據。它支持多種數據提取方法,包括正則表達式匹配、自

然語言處理(NLP)技術等。

數據預處理步驟如下:

步驟一:數據清洗

去除雜質:從文本中去除無關的字符,如特殊符號、空白行等。

格式統一:將所有文本統一為相同的編碼格式,通常為UTF-8,以避免編碼錯誤。

語言標準化:統一不同術語的使用,例如將所有"photovoltaic"統一替換為"PV",確保術語的

一致性。

步驟二:信息提取

關鍵信息標識:標識文獻中的關鍵信息,如研究方法、主要結論、實驗條件等。

數據分類:根據信息類型將數據分類,如作者、出版年份、研究結果等。

步驟三:結構化轉換

結構化處理:將信息精細化拆解與清洗,將各種元素進行轉換,形成結構化數據形式,拆分成

非結構化文本數據通常非常稀疏,即包含大量的詞彙但每個文檔只使用其中的一小部分。而結

構化數據則可以通過合併相似信息來降低數據的稀疏性,這有助於生成更加緊湊和有效的嵌入向

量。

結構化數據可以實現更高效的特徵提取。結構化數據通常已經按照特定的模式或結構進行了組

織,這使得我們可以更加高效地從中提取有用的特徵(如標題、作者、摘要、關鍵詞等)。這些特

征可以作為後續的輸入,幫助生成具有更強區分性和泛化能力的嵌入向量。結構化數據

中的元素(如主題、類別、屬性等)通常具有明確的含義,這些含義可以在過程中被保

留下來。因此,基於結構化數據的嵌入向量往往具有更強的解釋性,有助於我們更好地理解模型的

預測結果和內部機制。

上一章書籍頁下一章

離語

···
加入書架
上一章
首頁 台言古言 離語
上一章下一章

第266章 先睡了

%