您的位置 首页 kreess

人工智能驅動的知識圖譜助力非結構化數據導航

調查工作通常需要分析大量的文檔集——從電子郵件等文本內容到音頻和視頻內容——而且相關內容的數量在不斷激增。二十年前,對安然公司Enron Corporation醜聞的調

調查工作通常需要分析大量的文檔集——從電子郵件等文本內容到音頻和視頻內容——而且相關內容的數量在不斷激增。二十年前,對安然公司Enron Corporation醜聞的調查共涉及瞭五十萬份文件。如今,一個大型組織通常僅在幾天內就能產生同樣數量的文件。如果人類必須閱讀每份文件並手動提取和比對所有相關的細節,那麼找到特定的洞察,甚至確定要問的正確問題,都變得根本不可能。那麼,如何揭示埋藏在如此大量的非結構化數據中的信息呢?一個解決方案是支持一個可以突出重要信息的迭代發現過程。盡管這種方法縮小瞭相關文檔的范圍,但仍支持發現新的問題。

人工智能輔助知識圖譜

語言模型(LLMs)的最新進展與圖數據技術相結合,可以從非結構化內容中構建一個知識圖譜,從而快速探索和修改來自不同來源的數據。

Kineviz最近在GraphXR可視化分析平臺上實施瞭這些新想法,開發瞭一款名為SightXR的新產品,可實現與我們的GraphXR可視化分析平臺的無縫對接。現在,我們能夠輕松地處理非結構化數據,以實現以下目標:

– 自動標記感興趣的主題,極大地縮小瞭需要審查的文檔集中信息的范圍。

– 創建知識圖譜以快速導航數據。

– 執行關鍵字搜索和語義搜索以查找相關信息和模式。

– 通過問答(聊天)或摘要形式與數據交互。

然後,可以通過關鍵字搜索或語義搜索,訪問文檔內和跨文檔中的關系和實體。任何來源的數據都可以作為輸入使用,並保留數據源的身份信息,以便對結果進行準確性和可靠性評估。

該架構包括一個數據管道,用於處理不同類型非結構化數據,利用大型語言模型(LLM)識別實體和關系,並實現語義搜索。我們將提取的實體和關系存儲在圖數據庫(例如Neo4j)中,並將用於語義搜索的嵌入存儲在向量數據庫中。

知識圖譜輔助導航

知識圖譜成為導航數據以針對特定問題提供快速準確答案的起點。我們首先建立一個一般的圖譜,因為在大多數情況下,給大型非結構化文檔集合中的所有信息都打上標簽並相互連接是不切實際且不必要的。最需要的是一種方法來揭示哪些文檔包含直接感興趣的信息,以及一種方法來更詳細地調查該信息。從知識圖譜開始,人類可以使用自然語言問答格式快速縮小調查范圍,然後對被認為重要的元素進行擴展。

然後,基於聊天答案的詳細知識圖譜將自動構建以使用GraphXR佈局、分析和轉換進行快速可視化。通過將大型語言模型(LLM)驅動的語義搜索僅限制在已映射的文檔集中,可以有效地消除幻覺的風險。

可以通過全文搜索以及點擊並擴展關系將文檔節點直接從圖數據庫中提取到GraphXR中。例如,在涉及Enron破產訴訟的公開電子郵件存檔中,人物名稱已被編碼為知識圖譜中的節點,並通過MENTIONS關系連接到電子郵件文檔節點。選擇特定的Person節點並擴展其MENTIONS關系隻將這些連接的電子郵件文檔節點帶入圖中。

隨著知識在地圖中變得可用,GraphXR支持各種圖形分析。例如,可以通過單擊生成PageRank值以揭示重要的關系,否則這些關系可能不會顯現。GraphXR的多種選擇、顯示和佈局選項支持突出和快速隔離感興趣的模式的能力。

結論

我們發現,基於大型語言模型(LLM)功能的應用程序提供瞭前所未有的速度在非結構化數據中創建聚焦、可解釋的發現模式的關鍵缺失環節。LLM是自動解析實體和關系、構建一般知識圖譜以及支持自然語言查詢的關鍵。在GraphXR等可視化環境中進行迭代探索性分析,可以迅速發現否則會被隱藏的洞察力。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部