
澳汰爾工程軟件(上海)有限公司

已認(rèn)證
澳汰爾工程軟件(上海)有限公司
已認(rèn)證
導(dǎo)讀
隨著數(shù)字化轉(zhuǎn)型在制造企業(yè)中的推廣力度不斷加大,越來越多的制造企業(yè)逐漸認(rèn)識到數(shù)據(jù)在企業(yè)中所發(fā)揮的作用,并開始嘗試?yán)脭?shù)據(jù)科學(xué)來幫助企業(yè)降低成本、提高效率。最近幾年的推廣過程中,我們有一個(gè)非常顯著的感受,過去當(dāng)我們向客戶介紹 AI 時(shí),客戶通常會表示認(rèn)可其價(jià)值,但也提到由于各種問題,缺乏數(shù)據(jù),或沒有找到合適的應(yīng)用場景。然而,在最近兩年間,當(dāng)我們向客戶介紹 AI 時(shí),大部分客戶的反應(yīng)轉(zhuǎn)變?yōu)榉e極探尋企業(yè)內(nèi)部是否有適合的場景可以應(yīng)用,并提出是否可以通過 POC 來評估效果。此外,越來越多的客戶主動(dòng)聯(lián)系我們,詢問公司是否有相關(guān)的 AI 產(chǎn)品,并表達(dá)了希望通過這些產(chǎn)品開展數(shù)字化轉(zhuǎn)型項(xiàng)目的意愿。這反映了當(dāng)前 AI 在制造企業(yè)中應(yīng)用的趨勢。
今天的介紹會圍繞下面幾點(diǎn)展開:
1. 數(shù)據(jù)在制造業(yè)中的場景和挑戰(zhàn)
2. AI 案例分享
3. LLM 在企業(yè)應(yīng)用的探索
分享嘉賓|趙帥 Altair澳汰爾 數(shù)據(jù)分析高級應(yīng)用工程師
編輯整理|馬同學(xué)
內(nèi)容校對|李瑤
出品社區(qū)|DataFun
01
數(shù)據(jù)在制造業(yè)中的場景和挑戰(zhàn)
數(shù)據(jù)在制造業(yè)中的應(yīng)用場景眾多,從產(chǎn)品設(shè)計(jì)到生產(chǎn)制造、設(shè)備維護(hù),以及產(chǎn)品的售前、售后中都有相關(guān)應(yīng)用場景。下圖中列出了八類典型場景。例如,在制造企業(yè)中,各類設(shè)備普遍存在,如何實(shí)施預(yù)測性維護(hù)以減少停機(jī)時(shí)間成為關(guān)鍵問題之一。在產(chǎn)品測試方面,可以利用機(jī)器學(xué)習(xí)模型部分替代實(shí)驗(yàn),從而節(jié)省測試時(shí)間和成本。此外,還有對產(chǎn)品質(zhì)量問題的根因分析,以及傳感器數(shù)據(jù)異常檢測等場景。這里不再一一詳述每個(gè)場景的具體內(nèi)容。
數(shù)據(jù)在制造業(yè)的應(yīng)用所面臨的挑戰(zhàn)相較于消費(fèi)互聯(lián)網(wǎng)或金融行業(yè)更為嚴(yán)峻。
首先,制造業(yè)的數(shù)據(jù)具有高度的多樣性和異構(gòu)性。與互聯(lián)網(wǎng)企業(yè)通過簡單添加幾行代碼設(shè)置一些埋點(diǎn)即可輕松獲取數(shù)據(jù)不同,制造業(yè)中的每條生產(chǎn)線設(shè)備各異,供應(yīng)商不同,數(shù)據(jù)接口也不統(tǒng)一,這使得數(shù)據(jù)收集成為一項(xiàng)艱巨的任務(wù)。當(dāng)然目前大多數(shù)制造企業(yè)已經(jīng)建立了數(shù)據(jù)中臺或數(shù)據(jù)倉庫,解決了大部分?jǐn)?shù)據(jù)采集的問題。
其次,制造業(yè)從業(yè)人員大多為傳統(tǒng)學(xué)科工程師,缺乏數(shù)據(jù)專業(yè)背景。雖然他們是行業(yè)專家,對業(yè)務(wù)問題非常熟悉,但在將業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)問題時(shí),中間還是存在一定的斷層。
第三,數(shù)據(jù)安全性是另一大挑戰(zhàn)。制造企業(yè)需要挖掘的數(shù)據(jù)通常涉及企業(yè)的核心機(jī)密,如配方和生產(chǎn)工藝等敏感信息,因此他們往往不愿意將這些數(shù)據(jù)提供給第三方公司進(jìn)行分析。
最后,制造業(yè)場景難以復(fù)制。例如,在一家企業(yè)成功實(shí)施節(jié)能減排項(xiàng)目后,當(dāng)嘗試在另一家企業(yè)推廣時(shí),由于設(shè)備差異等因素,之前建立的模型和數(shù)據(jù)分析結(jié)果可能無法直接復(fù)用,需要從頭開始。這種場景的高度定制化特性增加了項(xiàng)目的復(fù)雜性和成本。
因此在制造企業(yè)內(nèi)部推進(jìn)數(shù)字化轉(zhuǎn)型項(xiàng)目時(shí),乙方公司需要提供一個(gè)完整的數(shù)據(jù)平臺,來解決上述挑戰(zhàn)。
首先是集成多源異構(gòu)的數(shù)據(jù),這一步驟大部分企業(yè)的數(shù)據(jù)中臺已具備相應(yīng)能力。
其次,平臺需提供制造企業(yè)所欠缺的數(shù)據(jù)科學(xué)能力,通過簡單易用的軟件工具快速培訓(xùn)企業(yè)內(nèi)部的業(yè)務(wù)專家,使他們能夠自行操作,而無需將數(shù)據(jù)外發(fā)給第三方公司進(jìn)行分析。這是針對前面提到的第二和第三項(xiàng)挑戰(zhàn)。
第四,針對制造企業(yè)內(nèi)部應(yīng)用場景繁多的情況,只有當(dāng)企業(yè)自身的專家掌握了數(shù)據(jù)科學(xué)的能力,并借助平臺的支持,才能迅速實(shí)現(xiàn)數(shù)據(jù)應(yīng)用的構(gòu)建。
下圖展示的是 Altair RapidMiner 企業(yè)級人工智能平臺的架構(gòu)圖。該平臺分為兩層:底層是數(shù)據(jù)編織平臺,支持用戶集成來自各種來源的數(shù)據(jù),并配備了一個(gè)高性能自研圖數(shù)據(jù)庫,用于大數(shù)據(jù)的存儲和查詢。在數(shù)據(jù)編織平臺之上,是全可視化操作的機(jī)器學(xué)習(xí)平臺,方便用戶進(jìn)行建模操作。
以下是數(shù)據(jù)編制的流程圖,該流程分為四個(gè)步驟:數(shù)據(jù)加載、模型構(gòu)建、模型融合和最終的數(shù)據(jù)訪問。我們能夠迅速將企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為知識圖譜,并存儲于圖數(shù)據(jù)庫中。接下來,企業(yè)內(nèi)部大模型能夠非常方便的利用知識圖譜中的數(shù)據(jù)作為外掛數(shù)據(jù),實(shí)現(xiàn)大模型對企業(yè)內(nèi)部數(shù)據(jù)的有效利用和快速訪問,為企業(yè)提供強(qiáng)有力的支持。
我們的機(jī)器學(xué)習(xí)平臺在 2024 年 6 月的 Gartner 數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)魔力象限中,位于領(lǐng)導(dǎo)者象限。這一成績體現(xiàn)了我們在該領(lǐng)域的卓越表現(xiàn)和領(lǐng)先地位。
02
AI 案例分享
接下來,將分享過去一兩年中為制造業(yè)企業(yè)用戶落地的一些 AI 應(yīng)用案例。
1. 行人頭碰損傷預(yù)測
第一個(gè)案例是行人頭碰損傷預(yù)測,這一應(yīng)用與模擬仿真業(yè)務(wù)緊密結(jié)合。在汽車上市前,需要進(jìn)行多種碰撞測試,包括行人頭部、大腿和小腿的碰撞實(shí)驗(yàn)。我們通過AI技術(shù),能夠更精確地預(yù)測這些碰撞對行人的潛在損傷。以下是三張圖示,分別展示了頭部碰撞、大腿碰撞和小腿碰撞的模擬情景。這些圖示有助于進(jìn)一步說明該應(yīng)用的具體實(shí)施方式。
其中,頭部碰撞是這三個(gè)場景中最為關(guān)鍵的實(shí)驗(yàn)。右側(cè)展示了一張汽車前引擎蓋的圖示。首先,我們將前引擎蓋劃分為多個(gè)區(qū)域,然后測試當(dāng)行人的頭部碰撞到這些區(qū)域時(shí)所受到的傷害值。在右下角有一張?jiān)u分表,如果某區(qū)域的傷害值超過 1,700,則該區(qū)域會被標(biāo)記為紅色,并且評分為 0。
完成對所有區(qū)域的碰撞測試后,我們會對整個(gè)引擎蓋進(jìn)行綜合評價(jià),以確定車輛是否符合行人頭部碰撞的標(biāo)準(zhǔn)。如果不符合標(biāo)準(zhǔn),則需要重新設(shè)計(jì)引擎蓋或調(diào)整發(fā)動(dòng)機(jī)艙內(nèi)部布局,然后再次進(jìn)行實(shí)驗(yàn),直至滿足要求為止,確保車輛可以正常上市銷售。這一過程確保了汽車在安全性方面的高標(biāo)準(zhǔn)。
在傳統(tǒng)方法中,首先使用模擬仿真軟件生成一個(gè)模擬人頭部的橢圓形物體。對于兒童,該物體的重量設(shè)置為 3.5 公斤;對于成人,則設(shè)置為 4.5 公斤。該物體將以 35 公里每小時(shí)的速度撞擊汽車前引擎蓋。右側(cè)展示的是在模擬仿真軟件中進(jìn)行仿真的動(dòng)畫示例,顯示頭部不斷碰撞到不同區(qū)域,并計(jì)算所受到的傷害值。這一過程通常需要兩到四周才能完成整個(gè)工作流程。
部分客戶希望利用其歷史上的車型模擬仿真數(shù)據(jù)構(gòu)建機(jī)器學(xué)習(xí)模型,以便在新車輛設(shè)計(jì)時(shí)能夠快速預(yù)測頭部損傷標(biāo)準(zhǔn)(HIC)值,而無需等待兩到四周的模擬仿真結(jié)果。通過機(jī)器學(xué)習(xí)模型,可以在大約三到五秒內(nèi)獲得不同區(qū)域的 HIC 值,從而快速迭代設(shè)計(jì)。當(dāng)然,前提是預(yù)測出的 HIC 值與實(shí)際情況之間的誤差在可接受范圍內(nèi)。
我們使用的模型基于以下參數(shù)構(gòu)建:例如引擎蓋的長度、寬度、角度、厚度及其材料屬性(如屈服強(qiáng)度和延伸率)。關(guān)鍵參數(shù)包括引擎蓋外層和內(nèi)層之間的間隙,以及引擎蓋內(nèi)部的發(fā)動(dòng)機(jī)、電池或其他剛性零件的位置。如果引擎蓋與這些剛性點(diǎn)之間的間隙較小,則撞擊該區(qū)域時(shí)的傷害值會顯著增加,這也是一個(gè)重要的考量因素。
提取上述參數(shù)作為模型輸入變量,并將歷史上模擬仿真計(jì)算出的各區(qū)域 HIC 值作為輸出變量,以此構(gòu)建我們的機(jī)器學(xué)習(xí)模型。這樣可以有效提升設(shè)計(jì)效率和安全性評估的準(zhǔn)確性。
接下來將展示如何在 RapidMiner 平臺中,利用已提取的仿真數(shù)據(jù),通過拖拽方式構(gòu)建機(jī)器學(xué)習(xí)流程。
首先進(jìn)行數(shù)據(jù)質(zhì)量檢驗(yàn),包括多重共線性檢驗(yàn)和對齊視圖等步驟。然后選擇我們要預(yù)測的目標(biāo)變量,即 HIC 值,并按照 7:3 的比例拆分訓(xùn)練集和測試集。在此基礎(chǔ)上,我們應(yīng)用 XGBoost 算法來擬合數(shù)據(jù),并生成模型評價(jià)指標(biāo)。
使用新數(shù)據(jù)進(jìn)行 HIC 值預(yù)測時(shí),同時(shí)進(jìn)行自變量優(yōu)化。運(yùn)行流程后,通過模型評價(jià)指標(biāo)可以觀察到均方根誤差(RMSE)和相對誤差(RE)表現(xiàn)良好。此外,我們還檢查了實(shí)際值與預(yù)測值的擬合曲線,發(fā)現(xiàn)擬合度非常高。這使得在后續(xù)的新車碰撞測試中,可以直接利用該模型快速預(yù)測 HIC 值。
可以看到,我們構(gòu)建的模型預(yù)測出的 HIC 值相對誤差較小,通常保持在 10% 以下。這意味著用戶可以在一定程度上用我們預(yù)測的 HIC 值替代傳統(tǒng)的模擬仿真結(jié)果,從而迅速獲得設(shè)計(jì)階段的 HIC 值預(yù)測結(jié)果。
2. 包裝的紙箱抗壓預(yù)測
第二個(gè)案例涉及為包裝行業(yè)構(gòu)建紙箱抗壓性能的預(yù)測模型。如今,消費(fèi)者大多通過網(wǎng)絡(luò)購買各種商品,通常使用瓦楞紙箱進(jìn)行包裝。對于這些瓦楞紙箱而言,關(guān)鍵要素之一是其能夠承受多大的壓力,尤其是在堆疊過程中,確保內(nèi)部物品不受損壞。
傳統(tǒng)流程為,客戶提出具體需求,例如要求瓦楞紙箱尺寸為長 200 毫米、高 150 毫米、寬 300 毫米,并要求其抗壓強(qiáng)度達(dá)到 1500 牛頓。廠商根據(jù)以往經(jīng)驗(yàn)設(shè)計(jì)紙箱后,需進(jìn)行實(shí)際測試。然而,這種測試不僅耗時(shí),而且如果未能滿足客戶需求,則需要反復(fù)修改設(shè)計(jì)并重新測試。
鑒于客戶擁有大量歷史臺架測試數(shù)據(jù),我們利用這些數(shù)據(jù)構(gòu)建了一個(gè)預(yù)測模型。下圖中展示了一張包含歷史數(shù)據(jù)的表格,其中列出了紙箱的長、寬、高以及瓦楞層數(shù)、波形類型、厚度、克重等參數(shù),這些參數(shù)對瓦楞紙箱的抗壓性能有顯著影響?;谶@些輸入變量和歷史抗壓性數(shù)據(jù),我們構(gòu)建了相應(yīng)的模型。
例如,當(dāng)客戶提出新的需求,如尺寸為長 350 毫米、寬 150 毫米、高 300 毫米,且抗壓性能要求達(dá)到 1600 牛頓時(shí),我們可以利用該模型快速預(yù)測所需的瓦楞層數(shù)、波形類型及其他相關(guān)參數(shù)。如果預(yù)測結(jié)果未達(dá)到 1600 牛頓的要求,我們可以通過調(diào)整參數(shù)來優(yōu)化設(shè)計(jì)。之后,再通過實(shí)驗(yàn)驗(yàn)證模型的預(yù)測結(jié)果,從而節(jié)省客戶的臺架測試時(shí)間和成本。
這一案例展示了如何利用歷史數(shù)據(jù)和機(jī)器學(xué)習(xí)模型,在設(shè)計(jì)階段快速預(yù)測和優(yōu)化瓦楞紙箱的抗壓性能,減少實(shí)際測試的需求,提高設(shè)計(jì)效率。
3. 節(jié)能減排
第三個(gè)案例是幫助某制造企業(yè)實(shí)現(xiàn)節(jié)能減排。企業(yè)面臨高昂的電力消耗,希望通過應(yīng)用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法來制定合理的節(jié)能措施。
客戶需求為根據(jù)生產(chǎn)量調(diào)整冷水機(jī)的運(yùn)行策略,當(dāng)生產(chǎn)量大時(shí),多開,反之則少開。首先要根據(jù)排產(chǎn)量計(jì)算出所需的制冷量,再根據(jù)冷水機(jī)的能耗曲線,制定出不同冷水機(jī)的運(yùn)行策略。
用戶提供的冷水機(jī)數(shù)據(jù)包括:進(jìn)出水溫度、能耗、天氣溫度、產(chǎn)能,以及冷水機(jī)的能效曲線等?;谶@些數(shù)據(jù),構(gòu)建了預(yù)測模型,根據(jù)預(yù)測結(jié)果即可制定冷水機(jī)的運(yùn)行策略。這樣在不增加硬件和系統(tǒng)改造的情況下,每年可以幫助用戶節(jié)省 10% 的電耗。
4. 客訴風(fēng)險(xiǎn)預(yù)測
第四個(gè)案例是幫助客戶減少客訴??蛻魳I(yè)務(wù)為兒童牙齒矯正,部分兒童在佩戴矯正器后會經(jīng)歷疼痛和不適,繼而進(jìn)行投訴。客戶希望利用 AI 技術(shù),基于診斷階段的 CT 檢測報(bào)告數(shù)據(jù),預(yù)測可能出現(xiàn)的投訴風(fēng)險(xiǎn),從而及時(shí)調(diào)整矯正器,確保患者佩戴舒適。
通過對歷史客訴部位與 CT 報(bào)告之間的關(guān)聯(lián)進(jìn)行建模,利用 AI 預(yù)測,使上頜舌側(cè)預(yù)測正確率達(dá)到了 87%,同比客訴下降 60%。
5. 質(zhì)檢檢測
下面介紹的案例是使用圖像識別技術(shù)幫助客戶檢測生產(chǎn)線上零件表面的缺陷,這一應(yīng)用廣泛存在于制造行業(yè)中。我們的軟件提供了一套完整的圖片標(biāo)記處理和模型構(gòu)建流程。
客戶可以對圖片數(shù)據(jù)進(jìn)行標(biāo)注,例如標(biāo)識出哪些區(qū)域存在針孔、油污或劃痕等問題?;谶@些標(biāo)注的圖片,我們可以訓(xùn)練出相應(yīng)的圖像識別算法。當(dāng)有新的零件進(jìn)入時(shí),該算法能夠快速識別圖片中的缺陷區(qū)域,識別準(zhǔn)確率可達(dá) 99% 以上。通過這種 AI 方式,客戶可以高效實(shí)現(xiàn)對其零件質(zhì)量的檢測。
03
LLM 在企業(yè)應(yīng)用的探索
下面介紹我們在企業(yè)內(nèi)部應(yīng)用大型模型所做的一些探索和解決方案。
自 2022 年 11 月 OpenAI 發(fā)布了全球首個(gè)大型模型 ChatGPT 以來,生成式 AI 已成為全球熱門話題。大型模型究竟在哪些方面帶來了技術(shù)上的提升和能力的增強(qiáng)呢?主要有以下三個(gè)方向:
大語言的理解和生成能力:在大型語言模型出現(xiàn)之前,對話機(jī)器人對自然語言的理解并不完善。基于 Transformer 架構(gòu)的大型模型在這方面取得了顯著進(jìn)展,特別是在高效理解和生成復(fù)雜的自然對話語言上表現(xiàn)尤為突出。
處理和理解長依賴距離的上下文信息:這意味著大型模型能夠更好地理解對話中更為復(fù)雜的概念和想法。它可以捕捉到更長距離的上下文依賴關(guān)系,從而更準(zhǔn)確地理解用戶意圖。
多模態(tài)處理能力:除了文本數(shù)據(jù),大型模型還具備處理語音和圖像的能力,并能將不同模態(tài)的信息進(jìn)行整合。這使得它們不僅限于文本處理,還能跨多種數(shù)據(jù)類型提供綜合分析和支持。
接下來介紹企業(yè)應(yīng)用大模型的一些常見方法。
第一個(gè)方法是模型的微調(diào),即對大型模型的參數(shù)進(jìn)行重新訓(xùn)練。這可以分為全參數(shù)微調(diào)和高效微調(diào)兩種方式。高效微調(diào)有許多方法,例如 LoRA(Low-Rank Adaptation)方法,可以通過在模型的關(guān)鍵層之間添加旁路,減少所需的訓(xùn)練參數(shù)總量。然而,使用企業(yè)內(nèi)部數(shù)據(jù)對大型模型進(jìn)行微調(diào)仍面臨諸多挑戰(zhàn):
計(jì)算資源消耗:即使是小規(guī)模的微調(diào),也需要大量的計(jì)算資源和時(shí)間。
回答準(zhǔn)確性問題:即使經(jīng)過微調(diào),大型模型在回答問題時(shí)仍可能出現(xiàn)錯(cuò)誤,或者看似正確的回答實(shí)際上并不符合企業(yè)內(nèi)部數(shù)據(jù)的真實(shí)情況。這種現(xiàn)象被稱為“幻覺效應(yīng)”。
數(shù)據(jù)滯后性:企業(yè)內(nèi)部的數(shù)據(jù)不斷更新,尤其是訂單數(shù)據(jù)等關(guān)鍵信息。頻繁地使用新數(shù)據(jù)對模型進(jìn)行微調(diào)并不現(xiàn)實(shí)。通常情況下,企業(yè)每月能夠?qū)δP瓦M(jìn)行一次微調(diào)已屬難得,這意味著模型中的數(shù)據(jù)會存在一定的滯后性。
技能要求高:一般制造企業(yè)不具備擁有模型微調(diào)技能的專業(yè)人員,因此這種方法并不適合大多數(shù)制造企業(yè)。
因此,盡管模型微調(diào)能夠提升大型模型對企業(yè)特定數(shù)據(jù)的理解和生成能力,但由于計(jì)算資源需求大、回答準(zhǔn)確性問題、數(shù)據(jù)滯后性和技能要求高等因素,這種方法在實(shí)際應(yīng)用中面臨諸多挑戰(zhàn),并不適合大多數(shù)制造企業(yè)。企業(yè)應(yīng)根據(jù)自身情況選擇更為合適的解決方案。
第二種方法是檢索增強(qiáng)生成(RAG)方式,這是目前最常用的方法之一。簡單來說,這種方法不需要大型模型直接擁有企業(yè)內(nèi)部的數(shù)據(jù),而是通過 RAG 方式將數(shù)據(jù)外掛于模型之外。
具體流程如下:
數(shù)據(jù)預(yù)處理:首先,我們將文本數(shù)據(jù)進(jìn)行切片,并將其向量化,構(gòu)建索引后存儲在向量數(shù)據(jù)庫中,以便后續(xù)用于問答檢索。
用戶查詢處理:當(dāng)用戶輸入查詢或問題時(shí),大型模型會在向量數(shù)據(jù)庫中搜索與用戶查詢最相關(guān)的文檔片段。
結(jié)果匯總與整理:模型會返回最相關(guān)的前五個(gè)文檔片段?;谶@些內(nèi)容,模型進(jìn)一步匯總和整理信息,最終生成回答以響應(yīng)用戶的查詢。
通過這種方式,大模型可以高效地利用外部數(shù)據(jù),而無需直接存儲和處理企業(yè)內(nèi)部的具體數(shù)據(jù)。這不僅減少了對計(jì)算資源的需求,還提高了回答的準(zhǔn)確性和相關(guān)性。
RAG(檢索增強(qiáng)生成)方法在處理文檔數(shù)據(jù)方面表現(xiàn)出色,但對于結(jié)構(gòu)化表格數(shù)據(jù)的支持相對不足,尤其是對市面上大多數(shù)關(guān)系型數(shù)據(jù)庫的支持較為有限。因此,盡管 RAG 在文本處理上表現(xiàn)良好,但在處理結(jié)構(gòu)化數(shù)據(jù)時(shí)存在一定的局限性。而結(jié)構(gòu)化數(shù)據(jù)往往是企業(yè)內(nèi)部最核心、最有價(jià)值的數(shù)據(jù)。
為了應(yīng)對大模型在回答結(jié)構(gòu)化數(shù)據(jù)場景中的挑戰(zhàn),目前有一種稱為“Text-to-SQL”的技術(shù)。該技術(shù)并不是新技術(shù),其主要功能是將用戶的自然語言問題轉(zhuǎn)換為針對關(guān)系型數(shù)據(jù)庫的查詢語句(通常是 SQL)。通過這種方法,從數(shù)據(jù)庫中查詢回來的數(shù)據(jù)通常是非常精確且無誤的。前提是生成的 SQL 查詢必須有效,并能夠準(zhǔn)確獲取用戶所需的數(shù)據(jù)。當(dāng)數(shù)據(jù)查詢返回后,大型模型可以基于這些數(shù)據(jù)進(jìn)行總結(jié)或歸納,從而精準(zhǔn)地回答用戶的問題,避免產(chǎn)生任何幻覺問題。
然而,Text-to-SQL 本身也存在一些問題。例如,數(shù)據(jù)庫中的表和字段名稱可能不具備業(yè)務(wù)上的含義。比如,一個(gè)字段在業(yè)務(wù)上被稱為“客戶”,但在數(shù)據(jù)庫中存儲的 ID 可能是“dimension_customer”。因此,在將自然語言轉(zhuǎn)換為 SQL 查詢時(shí),仍需進(jìn)行語義到數(shù)據(jù)庫字段的轉(zhuǎn)換,這一轉(zhuǎn)換過程的準(zhǔn)確性直接影響到查詢結(jié)果是否符合用戶需求。
如果能基于一個(gè)本身就包含數(shù)據(jù)業(yè)務(wù)語義的數(shù)據(jù)庫進(jìn)行查詢,那么這一轉(zhuǎn)換步驟就可以省去,從而提高查詢的精確度。為此,我們使用了一種稱為“Text-to-Sparql”的方法。Sparql 是一種用于圖數(shù)據(jù)庫查詢的語言。我們將企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)生成知識圖譜,并存儲于圖數(shù)據(jù)庫中。這樣,當(dāng)大型模型對關(guān)系型數(shù)據(jù)進(jìn)行查詢時(shí),就不需要再進(jìn)行業(yè)務(wù)語義到字段查詢的轉(zhuǎn)換,因?yàn)閳D數(shù)據(jù)庫中的數(shù)據(jù)已經(jīng)包含了業(yè)務(wù)含義。
我們基于大型模型結(jié)合圖數(shù)據(jù)庫或知識圖譜的檢索方式,推出了自己的大模型應(yīng)用——Altair Copilot。以下是 Altair Copilot 在企業(yè)內(nèi)部應(yīng)用的框架圖示。
我們的目標(biāo)是解決以下問題:首先將企業(yè)內(nèi)部的數(shù)據(jù)轉(zhuǎn)換為知識圖譜,然后使用大型模型對知識圖譜中的數(shù)據(jù)進(jìn)行查詢。這樣可以實(shí)現(xiàn)對企業(yè)內(nèi)部結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的有效查詢。此外,在某些場景中,我們還可以查詢以往構(gòu)建的機(jī)器學(xué)習(xí)小模型,并調(diào)用這些模型以獲得對未來數(shù)據(jù)的預(yù)測結(jié)果,例如銷量預(yù)測或其他相關(guān)模型的結(jié)果。
通過這一架構(gòu),Altair Copilot 不僅能夠高效處理企業(yè)內(nèi)部的復(fù)雜數(shù)據(jù),還能結(jié)合歷史模型的預(yù)測能力,為企業(yè)提供更加精準(zhǔn)和有價(jià)值的洞察。
再回到大模型結(jié)合知識圖譜本身來說,從技術(shù)層面上看,大模型和知識圖譜是如何結(jié)合以回答用戶的自然語言問題的呢?我們繪制了一個(gè)流程圖來展示這一過程。
當(dāng)用戶提出一個(gè)問題時(shí),大模型首先會對問題進(jìn)行自然語言處理,分析出問題中的關(guān)鍵點(diǎn),包括主體數(shù)據(jù)及其相互關(guān)系。例如,在某個(gè)問題中可能涉及供應(yīng)商(supplier)、分發(fā)中心(distribution center)和國家(country)等主體,同時(shí)還可能包含一些附加條件,如評分需高于 0.7。
知識圖譜在回答這類問題時(shí)的核心優(yōu)勢在于其使用自然語言描述數(shù)據(jù)實(shí)體及其關(guān)系的能力。參考下圖,供應(yīng)商、國家及其范圍等信息是以實(shí)體的形式存儲在圖數(shù)據(jù)庫中的。因此,大模型能夠較為簡單地將用戶的自然語言轉(zhuǎn)換為對知識圖譜的查詢。
接下來,大模型生成一個(gè) Sparql 查詢語句,用于圖數(shù)據(jù)庫的檢索。如果仔細(xì)觀察這個(gè)查詢語句,可以看到其中的供應(yīng)商、國家及范圍等元素與用戶自然語言描述的內(nèi)容基本匹配。這種方式顯著減少了大模型生成 Sparql 查詢語句的錯(cuò)誤率,使得查詢結(jié)果更加準(zhǔn)確可靠。
一旦 Sparql 查詢完成,返回的結(jié)果一定是精確無誤的數(shù)據(jù)。大模型基于這些查詢結(jié)果,進(jìn)一步整理和處理上下文信息,最終回答用戶的問題。通過這種知識圖譜外掛的方式,大模型能夠高效生成針對圖數(shù)據(jù)庫的精準(zhǔn)查詢,并有效解決幻覺問題。
最后,我們使用 Altair Copilot 完成了一個(gè)結(jié)構(gòu)化數(shù)據(jù)查詢的案例。在底層數(shù)據(jù)或知識圖譜數(shù)據(jù)中,包含了銷售數(shù)據(jù)(如銷量、時(shí)間、客戶等信息)和產(chǎn)品主數(shù)據(jù)(如產(chǎn)品的泵表數(shù)據(jù),即產(chǎn)品由哪些零件組成)。此外,還加入了物聯(lián)網(wǎng)傳感數(shù)據(jù),例如在一個(gè)水管演示案例中,水管上的傳感器記錄了壓力和溫度等數(shù)據(jù)。
通過大模型或 AltairCopilot,用戶可以對這些數(shù)據(jù)進(jìn)行查詢。以下是一個(gè)簡短的演示:
首先,選擇底層圖數(shù)據(jù)庫中的某個(gè)數(shù)據(jù)集,這里選擇的是水管的數(shù)據(jù)。我們可以詢問大模型底層圖數(shù)據(jù)庫包含哪些數(shù)據(jù)類型,例如訂單、水管泵表數(shù)據(jù)或傳感器數(shù)據(jù)。然后,進(jìn)一步查詢特定水管的主數(shù)據(jù)。例如,查詢編號為 TA001 的水管的相關(guān)主數(shù)據(jù),如長度和彎管數(shù)量。
接下來,可以繼續(xù)查詢該水管的泵表數(shù)據(jù),得知它由兩個(gè)零件組成。還可以切換到銷售訂單數(shù)據(jù)的查詢,顯示銷售訂單的明細(xì)數(shù)據(jù)。如果返回的數(shù)據(jù)量過大,大模型會提示需要進(jìn)行匯總或選擇部分?jǐn)?shù)據(jù)展示。我們可以按產(chǎn)品名稱匯總,并僅返回前 30 條數(shù)據(jù)。
如果表格形式不夠直觀,可以直接要求大模型將數(shù)據(jù)可視化為柱狀圖。如果發(fā)現(xiàn)圖表中缺少某些關(guān)鍵信息(如銷售數(shù)量),可以進(jìn)一步指示大模型將其添加到圖形上。
對于物聯(lián)網(wǎng)數(shù)據(jù),由于其通常包含大量記錄,建議先設(shè)定限制條件以減少返回的數(shù)據(jù)量。例如,隨機(jī)選擇 10 個(gè)傳感器的水管 ID。選定特定水管(如 TA0014)后,可以進(jìn)一步查詢其傳感器的具體檢測數(shù)據(jù)(如壓力和溫度),并帶上時(shí)間戳。
這些傳感器數(shù)據(jù)也可以轉(zhuǎn)換為折線圖進(jìn)行可視化展示。
整個(gè)演示展示了基于圖數(shù)據(jù)庫或知識圖譜結(jié)合大模型,如何通過對話方式實(shí)現(xiàn)對企業(yè)內(nèi)部結(jié)構(gòu)化數(shù)據(jù)的查詢和可視化。這在很大程度上能夠替代現(xiàn)有的 BI 報(bào)表,滿足客戶的實(shí)時(shí)BI需求或?qū)崟r(shí)數(shù)據(jù)可視化需求。未來,大部分 BI 報(bào)表可能會被這種對話式的數(shù)據(jù)查詢和可視化方式所取代。
以上就是對企業(yè)大模型解決方案的介紹,如果您對 RapidMiner 產(chǎn)品感興趣,可以掃描二維碼,申請?jiān)囉?。我們將有專門人員與您聯(lián)系,為您提供相關(guān)的試用服務(wù)。以上就是本次分享的內(nèi)容,謝謝大家。
相關(guān)產(chǎn)品
更多
型號:Altair One仿真、數(shù)據(jù)分析、計(jì)算資源的統(tǒng)一云平臺
面議型號:Altair? lOT Studio人工智能及物聯(lián)網(wǎng)智能產(chǎn)品開發(fā)
面議相關(guān)文章
更多
技術(shù)文章
2025-02-28技術(shù)文章
2025-02-26技術(shù)文章
2025-02-26技術(shù)文章
2025-02-26