第266章先睡了_離語-愛下電子書

第266章先睡了

日常生活和經濟全球化之間存在密切的關係。經濟全球化是一個涉及全球範圍內經濟活動、貿易、投資、金融等方面的概念，它使得各國經濟相互依存、相互聯繫，形成一個全球範圍的有機經濟整體。這種全球化的趨勢對人們的日常生活產生了深遠的影響。

以購物為例，經濟全球化使得人們可以輕鬆地購買到來自世界各地的商品。無論是在大型超市、電商平台還是實體店，我們都可以看到來自不同國家的商品琳琅滿目。這些商品可能包括食品、衣物、電子產品等，它們不僅豐富了我們的選擇，也提高了我們的生活質量。

文本相似度計算是自然語言處理（NLP）領域的一個重要研究方向，它旨在衡量兩個或多個文

本之間的相似程度。文本相似度計算的原理基於兩個主要概念：共性和差異。共性指的是兩個文本

之間共同擁有的信息或特徵，而差異則是指它們之間的不同之處。當兩個文本的共性越大、差異越

小，它們之間的相似度就越高。

文本相似度計算可以根據不同的分類標準進行分類。首先基於統計的方法分類，這種方法主要

關注文本中詞語的出現頻率和分佈，通過統計信息來計算文本之間的相似度。常見的基於統計的方

法有餘弦相似度、Jaccard相似度等。其次是基於語義的方法分類，這種方法試圖理解文本的含義

和上下文，通過比較文本的語義信息來計算相似度。常見的基於語義的方法有基於詞向量的方法

（如Word2Vec、GloVe等）和基於主題模型的方法（如LDA、PLSA等）。最後是基於機器學習的方

法分類，這種方法利用機器學習算法來訓練模型，通過模型來預測文本之間的相似度。常見的基於

機器學習的方法有支持向量機（SVM）、神經網絡等。

目前，在國內外，文本相似度計算已經取得了豐富的成果。國內方面，清華大學等機構的研究

者提出了基於深度學習的文本相似度計算方法，利用神經網絡模型來捕捉文本的深層語義信息，實

現了較高的相似度計算精度。江蘇師範大學的研究者提出了利用《新華字典》構建向量空間來做中

文文本語義相似度分析的方法，該方法在中文文本相似度計算方面取得了顯着的效果。放眼國外，

Google的研究者提出了Word2Vec算法，該算法將詞語表示為高維向量空間中的點，通過計算點之

間的距離來衡量詞語之間的相似度。Word2Vec算法在文本相似度計算領域具有廣泛的影響。斯坦

福大學等機構的研究者提出了BERT模型，該模型通過大量的無監督學習來捕捉文本的上下文信

息，可以實現高精度的文本相似度計算。BERT模型在多項自然語言處理任務中均取得了優異的表

現。

2.5本章小結

本章主要介紹了本項目中使用的四種關鍵技術與模型。這些技術主要基於大型語言模型，並且

依賴於RAG技術的原理。介紹了知識抽取技術，它利用先進的自然語言處理技術從文本中提取有意

義的信息和知識，隨後討論了文本處理中所使用的RAG技術，該技術可以顯着提高大型語言模型在

專業領域的性能，增強信息檢索的準確性和效率。最後探討了在文本比對過程中所需的相似度計算

方法，這對於評估文本之間的相似程度至關重要。

了解清楚數據獲取來源后，進行數據採集，數據採集的方法包括自動化和手動兩種方式：

自動化採集：利用編寫的Python腳本通過API接口自動從上述數據庫和期刊中下載文獻和元

數據，部分代碼如圖3.2所示。這種方法的優點是效率高，可以大量快速地收集數據。使用

BeautifulSoup和Requests庫從開放獲取的期刊網站爬取數據。

手動採集：通過訪問圖書館、研究機構以及聯繫文章作者等方式獲取不易自動下載的資源。雖

然此方法更費時，但有助於獲取更全面的數據集，特別是一些最新或尚未公開的研究成果。

將兩種方法採集到的文獻數據進行匯總，最大範圍的將有關電力LCA領域的英文文獻進行匯

總，共獲得507篇。

最後是將各個途徑獲取到的文獻數據和元數據匯總，進行數據預處理。

採集到的數據需經過清洗和預處理，才能用於後續的分析。

數據預處理的步驟包括：

數據清洗：刪除重複的記錄，校正錯誤的數據格式，填補缺失值。

數據整合：將來自不同來源的數據整合到一個統一的格式和數據庫中，如表3.1所示，以便進

小主，這個章節後面還有哦，請點擊下一頁繼續閱讀，後面更精彩！

為了使後續知識庫生成更加準確與完善，對文獻具體內容進行篩選。例如部分文獻中並未提到

所用數據，而是指出所用數據庫連結，如圖3.3所示，在對該篇文獻進行解析后，數據部分就是欠

缺的，最終構建的知識庫就不完整，在調用大模型回答相關問題時，極大概率產生幻覺。因此為了

構建更為準確的專業模型，對爬取下來的507篇文獻進行篩選，選擇包括流程圖（system

boundaries）、各單元過程或生產環節的投入（input），產出（output），數據（），以及數據的時間、地點、獲取方法、技術細節的文獻作為最後應用的數據。核對內容

后的文獻數據集共98篇英文文獻。

數據預處理

Unstructured庫是一個強大的工具，專為處理非結構化數據設計，具體流程如圖3.7所示，

如從文本文檔、PDF文件或網頁中提取數據。它支持多種數據提取方法，包括正則表達式匹配、自

然語言處理（NLP）技術等。

數據預處理步驟如下：

步驟一：數據清洗

去除雜質：從文本中去除無關的字符，如特殊符號、空白行等。

格式統一：將所有文本統一為相同的編碼格式，通常為UTF-8，以避免編碼錯誤。

語言標準化：統一不同術語的使用，例如將所有"photovoltaic"統一替換為"PV"，確保術語的

一致性。

步驟二：信息提取

關鍵信息標識：標識文獻中的關鍵信息，如研究方法、主要結論、實驗條件等。

數據分類：根據信息類型將數據分類，如作者、出版年份、研究結果等。

步驟三：結構化轉換

結構化處理：將信息精細化拆解與清洗，將各種元素進行轉換，形成結構化數據形式，拆分成

非結構化文本數據通常非常稀疏，即包含大量的詞彙但每個文檔只使用其中的一小部分。而結

構化數據則可以通過合併相似信息來降低數據的稀疏性，這有助於生成更加緊湊和有效的嵌入向

量。

結構化數據可以實現更高效的特徵提取。結構化數據通常已經按照特定的模式或結構進行了組

織，這使得我們可以更加高效地從中提取有用的特徵（如標題、作者、摘要、關鍵詞等）。這些特

征可以作為後續的輸入，幫助生成具有更強區分性和泛化能力的嵌入向量。結構化數據

中的元素（如主題、類別、屬性等）通常具有明確的含義，這些含義可以在過程中被保

留下來。因此，基於結構化數據的嵌入向量往往具有更強的解釋性，有助於我們更好地理解模型的

預測結果和內部機制。

第266章 先睡了