包裝產品精準營銷論文

時間:2022-10-10 09:15:57

導語:包裝產品精準營銷論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

包裝產品精準營銷論文

摘要:在當今信息化社會中,人物關系網絡研究具有十分重要的意義,它蘊含了巨大的商機,并可應用于不同的領域。在包裝產品信息分析中,文本信息是重要的基礎資源,將原始文本經過命名實體識別、人物實體關系抽取、指代消解等技術處理后,構建出人物社會關系網絡來服務于包裝產品的精準營銷,是一種行之有效的方法。實驗結果表明,人物關系網絡構建方法具有領域可移植性,它便于在大規模的網絡文本中對包裝產品相關文本進行靈活分析,從而為包裝產品生產經營者精準營銷提供輔助決策功能,其方法具有較強的實用價值。

關鍵詞:人物關系網絡;自然語言處理;精準營銷;包裝產品;結構化信息

互聯網中的WEB文本以爆炸式的速度增長,其中蘊含著豐富的人物社會關系。在基于WEB網頁的人物關系網絡構建研究中,Kautz等[1]根據人名在個人主頁和合作論文等文檔中的共現頻率構建了命名為Re-ferralWeb的社會關系網絡。Mika等[2]通過人物共現關系開發了Flink網絡社區系統。Chang等[3]利用貝葉斯概率模型計算Wikipedia中人物實體之間的關系構成人物關系網絡。姚從磊等[4]采用模擬退火算法發掘網絡文本中人物關系。王鵬等[5]利用個性化的圖書推薦算法構建了基于社會網絡的圖書推薦系統。在基于純文本的人物關系網絡構建研究中,Jing等[6]通過多種統計自然語言處理技術提取文本中的人物關系和事件,從而構建相應的人物關系網絡。Elson等[7]通過識別文學作品的兩個對話角色構建人物關系網絡。Camp等[8]利用SVM分類器對人物關系進行分類并構建人物關系網絡。趙京勝等[9]應用計算語言學技術和復雜網絡技術,從文學作品《三國演義》中構建社會網絡。彭成等[10]提出了一種以實體關系抽取技術為中心的社會網絡構建方法。精準營銷是指在精準定位的前提下通過現代信息技術構建的顧客溝通服務體系[11]。人物關系網絡可為企業經營者、市場分析提供有價值的決策信息,服務于包裝產品精準營銷。同時,自動發現WEB文本中隱含的人物關系網絡對于精準營銷、好友推薦等應用也十分重要。在包裝產品領域WEB文本中,研究一種基于自然語言處理技術自動構建人物關系網絡的方法非常有意義。所以,筆者利用基于樹核函數的人物關系抽取技術訓練得到SVM分類模型,再將該模型應用在包裝產品領域人物關系網絡挖掘中,為包裝產品的精準營銷提供決策依據。

1人物關系網絡構建技術

1.1基于ACE語料庫的人物關系網絡組成。自2000年開始,美國國家標準技術研究院組織了自動內容抽取(AutomaticContentExtraction,ACE)評測,目的是在機器學習技術基礎上解決用戶在進行海量信息檢索、比較和判斷時面臨的困難。在ACE中文語料庫的633篇新聞文檔中,標注的人物關系類型有靜態的人物社會關系(PER-SOC)和動態的社會交互事件(CONTACT)轉化的社會交互關系,每種大類關系又被細分成具體的小類。它涵蓋了家庭成員關系、商業伙伴關系、社會交互關系、書信電話交互關系等多種靜態和動態人物關系。基于ACE語料庫的人物關系網絡構建需經過圖1所示的人名實體識別、關系抽取、共指消解等步驟。1.2構建人物關系網絡相關處理技術。在自然語言處理技術中,人名實體識別的準確率很高,已接近商用化。其任務就是自動標注待處理文本中的人名、地名等命名實體。可采用成熟工具StanfordNamedEntityRecognizer來實現中文人名實體識別任務。除此之外,仍需經過以下關鍵技術處理。1.2.1實體間關系抽取。對于人物實體關系抽取是人物關系網絡中的核心步驟,其目標是通過一個句子中與兩個人名實體相關的信息,判斷這兩個人名實體是否存在關系以及存在何種關系。采用的方法是基于樹核函數的人物關系抽取技術確定句子中的兩個實體之間的關系。其關鍵技術是準確刻畫實體相互關系的結構化信息,即保留句法樹中的哪些部分作為結構化信息表達形式。Zhang等[12]實驗證明最短路徑包含樹形式的結構化信息取得了最好的性能。文中在最短路徑包含樹的基礎上,根據新聞人物關系實例的長語句文本特點,通過刪除冗余信息和引入動詞語言學特征,在人名實體的父節點加入同義詞詞林等語義信息來提高人物關系抽取的性能,同時使用重采樣技術[13]解決語料庫正負例樣本不平衡的問題。為了充分利用實驗語料,按照五倍交叉驗證原則,將關系實例按照5∶1的比例分為訓練集和測試集,最終獲得基于ACE語料庫的人物關系模型文件。1.2.2單文本指代消解。在自然語言描述中,指代是一種常見的語言表達現象,單文本指代消解是將篇章內的指代現象進行消解形成指代鏈的過程,例如指代鏈“他、總統、奧巴馬”等實體詞,指的都是同一個名詞性實體“奧巴馬”。為了更準確地構建人物關系網絡,指向同一個人名實體必須合并為同一個結點,從而提高人物關系網絡的表現力和實用性。文中將人物實體關系抽取得到相應的關系模式泛化,使用新的關系模式重新檢索語料庫文本的方式來解決單文本指代消解問題。1.2.3跨文本指代消解。跨文本指代消解是判斷不同文章中的實體引用是否為同一個實體的過程,它的任務是將多個篇章中指向同一實體的所有指代詞形成同一指代鏈。其中“多名”現象指的是同一實體在不同文本中有不同的指代詞,“重名”現象指的是不同文檔中的相同指代詞指向不同的實體。針對跨文本指代消解問題,首先將兩對同樣的人名實體(實體名稱及實體關系均相同)存在于不同的文檔中的關系實例合并,然后將指代消解問題轉化為分類問題,采用成熟的SVM分類模型解決跨文本指代消解中的重名消歧和多名聚合問題。經過以上步驟,將抽取到的人名實體間的關系作為網絡的邊,相應的人名實體作為網絡結點,歸并掉冗余的邊和結點后即形成人物關系網絡。

2包裝產品營銷中的人物關系網絡

2.1基于包裝產品營銷中的人物關系網絡組成。從包裝領域文本中挖掘人物關系進而構建人物關系網絡包括WEB網頁提取、分句、分詞和詞性標注、句法分析及關系實例生成、人物實體關系抽取、指代信息處理等關鍵步驟,具體過程如圖2所示。對于人物實體關系抽取部分,首先將基于ACE語料庫的訓練文件和手動標注的少量包裝產品領域文本的訓練實例歸并為新的訓練實例,通過SVM分類器訓練得到基于包裝產品領域文本的人物關系模型文件,再對手動標注的大量測試實例進行預測,得到人物關系抽取的實驗性能指標。2.2包裝產品營銷中的人物關系網絡處理方式在包裝產品的精準營銷中,運用人物關系網絡表達的包裝領域人物關系,幫助用戶篩出所需要的信息,達到精準營銷的目的。在人物關系網絡處理中需要進行如下的處理方式。2.2.1WEB網頁提取。以“全國先進包裝企業名單”中200家企業門戶網站作為實驗數據來源,通過搜索引擎獲取大量包裝領域相關網頁。根據網絡爬蟲抓取到的網頁布局特點,編寫腳本程序提取網頁文章的標題和正文,按照網頁為單位保存至對應的文檔中;緊接著采用正則表達式過濾文檔中的噪聲信息。2.2.2文本預處理首先,將文檔中的“句號、感嘆號、問號、省略號”作為句子終結符進行分句;然后,采用中科院計算所的詞性標注工具ICTCLAS進行分詞,分詞工具還提供人名實體信息的詞性標注;最后,根據上述詞性標注的結果,凡是含有兩個及兩個以上人名實體的句子即為候選句。2.2.3句法分析及關系實例生成。首先,采用句法分析工具Charniakparser[14]對候選句進行句法分析,獲得完整的句法樹信息;然后,將候選句中人名實體按照不同組合生成相應的關系實例,并在關系實例的當前兩個人名實體的詞性結點的相應位置加入標記結點;最后,依據結構化信息生成算法對完整句法樹進行定向裁剪后生成關系實例。2.2.4人物實體關系抽取。根據ACE標準語料庫中訓練實例和少量新標注的包裝產品領域文本的訓練實例,充分訓練SVM分類器,得到新的分類模型文件對包裝產品領域的大量測試實例進行關系抽取與分類,最終得到包裝領域WEB文本中蘊含的人物關系。2.2.5指代信息處理。指代信息處理有助于提高人物關系網絡的真實性及表現力。根據分類模型抽取的人物關系實例,自動提取兩個實體,并標注實體間相互關系。由于包裝領域文本的絕大多數人名實體即為其人名全稱,不需要進行指代消解。對于極少部分的指代現象采取人工歸并的方式處理,例如“西南地區銷售經理、王強、他”為同一指代鏈,則使用名詞性實體“王強”替代。根據人物關系抽取獲取到的結點和邊,構成了基于包裝領域文本的人物關系網絡。

3實驗與結果分析

文中采用常用的準確率(Precision)、召回率(Recall)和對應的加權幾何平均值(F1-Measure)作為人物關系抽取性能評價標準。它們的定義如下Precision=C/T(1)Recall=C/N(2)F1-Measure=[P×R×(1+β2)]/[(P+R)×β2](3)其中,C為被正確分為某類的實例數,N為測試樣本中某類的實例總數,T為系統識別出某類實例的總數,P為準確率,R為召回率,β是召回率和準確率的相對權重(文中)的β值取1)。表1中的“ACE和WEB”兩列展示了基于ACE語料庫和包裝領域WEB文本兩種文本來源所蘊含的人物社會關系數量,表格的最后三列展示了在包裝領域WEB文本中進行人物關系抽取的實驗性能,TOTAL是PER-SOC和CONTACT兩類實例綜合在一起計算時的性能平均值。準確率和召回率均取得了較好結果,這表明包裝領域WEB文本的語言結構類似于ACE語料,同時也證明基于自然語言處理技術的人物關系網絡挖掘方法具有較好的領域可移植性。在ACE語料庫訓練實例的基礎上,加入少量包裝領域文本的訓練實例后生成的分類模型文件可以用于挖掘包裝領域的人物關系網絡。從實驗結果還可以看出,ACE語料庫中文本以人物-社會關系中的家庭和商業伙伴關系為主,而包裝領域文本以社會交互事件中產生的社會交互關系為主。

4結語

由于文中提出的人物關系網絡挖掘方法具有較好的領域適應性,因此在海量的包裝信息數據文本中,可以自動抽取人名實體間有潛在價值的商業伙伴關系和社會交互關系,構建包裝領域人物關系網絡,從而為包裝領域挖掘出最有營銷價值的客戶群體,為用戶提供有針對性的服務,以實現高效營銷。值得注意的是,文中介紹的包裝產品精準營銷依賴于大規模的數據文本,現階段原始數據有限,實驗效果會受到制約,隨著對包裝領域網絡文本的深入挖掘,基于人物關系網絡的營銷模式將發揮其優勢,成為企業高效的營銷選擇,具有較強的實用價值。

作者:彭麗麗 奚雪峰 單位:蘇州科技大學