出租車GPS軌跡數據挖掘研究

時間:2022-02-22 08:35:15

導語:出租車GPS軌跡數據挖掘研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

出租車GPS軌跡數據挖掘研究

1出租車gps軌跡數據挖掘技術分析

1.1數據預處理。初步的數據采集,往往都是不完整的或不一致的,數據當中可能存在缺漏項或重復項,所以不能直接用于數據分析與數據挖掘,需要進一步進行數據的清理與冗余數據化簡操作。出租車的GPS軌跡數據當中,可能存在的問題主要包括兩點,其一是軌跡點的經緯度坐標越界;其二時軌跡點位置異常。對這兩種數據問題進行清理,可通過以下步驟:首先,處理經緯度坐標越界問題,假設數據采集對象為沈陽市轄區,則要劃分重點研究區域,若此次研究主要為主城區的交通道路規劃提供參考,則要將繞城高速以外的所有坐標記錄進行清除處理。其次,處理軌跡點異常的問題,需要進行異常值過濾處理,如,數據的來源出租車的行車速度要控制在合理范圍內;同時,還要有效剔除車載GPS的測量異常值,具體辦法可結合中位數濾波器進行有效處理。在數據采集過程中,受到交通擁堵、停靠等現實狀況的影響,地位系統當中會出現大量的定位冗余點,若要保證數據分析的準確性,必須對其進行簡化處理。針對這一處理過程,可充分利用計算機圖形學與制圖學領域的研究成果,采用Douglas-Peucker即DP算法,針對出租車GPS軌跡數據中曲線節點密度較高的數據類型,能夠起到顯著的去冗余效果。1.2地圖匹配。在實際數據采集過程中,受到GPS定位精度問題的影響,獲取到的軌跡點可能存在一定的誤差,針對這種數據問題,就需要進一步采用地圖數據對其進行匹配糾正處理。較為簡單的匹配方法,就是將GPS軌跡點與距離最近的道路進行匹配,主要原理是幾何特性,基于道路拓撲關系進行匹配,能夠簡化匹配過程,且計算更為便捷、準確度更高。對初始數據進行相應的處理,最終得到的軌跡數據,應能夠清晰的呈現為目標區域的道路網絡。

2利用出租車GPS軌跡數據挖掘居民出行特征的方案設計

2.1高斯定理與軌跡數據。采用高斯定律進行居民出行特征挖掘,是一種類比的應用手段,主要原理是利用高斯定律描述目標場景,進而細致分析出租車軌跡方向與載客數量等特征。高斯定律數學表達公式如下:式中的Ω表示一個封閉曲面,而V則表示由這個封閉曲面所圍成的空間;0ε表示介電常數;E表示空間V當中的電場分布矢量函數;而qi則表示空間V當中所包含的電荷。對其進行直觀的理解,即公式所表示的的封閉曲面內所包含的電荷之和,與穿過該曲面的電場線呈正比關系。將其類比于出租車GPS軌跡數據挖掘的過程當中,即表示在出租車GPS軌跡數據當中,一個載客段就對應高斯定律當中的一條電場線,而載客段所形成軌跡的起點與終點則為高斯定律當中的正負電荷;假設研究范圍內的出租車載客量趨于穩定,皆為1/0λ,則能夠進一步得出出租車穿過制定區域的軌跡正比于區域內所有載客段起點與終點之和。將高斯定律類比與出租車GPS軌跡數據,針對尺度不同的區域,其起點與終點之和能夠進一步表現各個區域尺度下的載客凈流入量密度空間,具體表達公式如下:(count終點-count起點)式中的Ti表示目標區域內的的載客段,當載客段的終點在目標區域之內時,δ(Ti)則為+1;若終點超出目標區域,則δ(Ti)的值為-1;1/0λ作為出租車的平均載客量,可將其假定為穩定常數。2.2基于高斯定律的軌跡挖掘。類比于高斯定律的出租車GPS軌跡數據挖掘,通過對目標區域中出租車載客段在一定時間內的軌跡進行分析,能夠進一步得到在這段時間內,目標區域內出租車的載客凈流入量[1]。對于載客凈流入量這一數據,能夠明確其數據分析指標包括出租車GPS軌跡數據當中的數量特征與方向特征,能夠在一定程度上,客觀的反映出目標區域對居民出現的“吸引力”程度。總結基于高斯定律的出租車GPS軌跡數據挖掘算法如下:(1)首先,初步獲取目標區域內的出租車GPS軌跡數據,并對其進行數據預處理操作;然后,將軌跡數據進行有效分割,分割的主要依據為出租者的載客狀態,最終形成空車狀態數據與載客狀態數據,從而提取出區域內出租車載客軌跡的起點與終點。(2)得到有效的出租車GPS軌跡數據之后,進一步分割數據覆蓋區域,可采取柵格分割方式來設定分割尺寸。(3)以每個分割單元為單位,統計其中的載客軌跡起始點與終點,統計值即為count終點-count起點。(4)依據公式(count終點-count起點)•1/0λ,得出目標區域內,一定時間內的乘客凈流入量。

3利用出租車GPS軌跡數據挖掘居民出行特征的實驗結果分析

以某城市交通局提供的,2017年9月1日至2日,城市主城區出租車GPS軌跡數據為例,對其進行數據挖掘實驗,進一步分析居民出行特征。3.1數據分析。通過數據預處理后得到有效的軌跡數據,分析得出以下內容:統計時間間隔為10min,從早上5:00至中午12:00,出租車的載客次數呈現為先增加,后區域穩定的趨勢;中午12:00至14:00,載客次數出現了明顯的下落,此后又逐漸上升;在16:00至19:00之間,再次出現了載客低谷狀態。通過分析,能夠明確此數據變化形式,與居民的常規出行行為特征基本符合。3.2軌跡挖掘實驗。對經過預處理的數據進行分割處理,采用100m作為分割尺度,而500m作為搜索半徑,分別對每天5:00至10:30、16:30至22:00兩個時段進行分析,每個時段固定為5小時30分鐘。在得出9月2日輸出結果的基礎上,進一步結合山頂點提取法,分析乘客凈流入量、流出量峰值點進行提取,并得出其空間分布狀況,挖掘得出有利數據[2]。3.3實驗分析。在實驗觀察中發現,在5:00至10:30這個時間段內,存在明顯的高值區域,這種數據形式說明,在目標區域內,這一時段的人流凈流量處于較高水平,可將其歸類為凈流入區;通過實際地圖對比,該區域位于城市中心的商業區及鄰近區域;在數據當中,外圍顯示出明顯的低值區域,即此區域內的人流凈流量較低,說明為凈流出區,與實際電子地圖進行對比發現,此區域為城市的主要居民區;數據載外圍一點,則出現了一些相對高值區域,與實際地圖相對照發現,此區域內包含城市火車站商圈,以及城市著名旅游風景區。16:30至22:00時段對比于5:00至10:30這個時間段,高值區域的實際地址分布呈現為相反的狀態,經過思考分析,能夠得出,出租車GPS軌跡數據分析結果,與城市居民的日常生活行為習慣基本相符合,在早上,人們出行多數是去商務區上班,所以形成的商務區為高值區域、居民區為低值區域的數據特征;而傍晚時間,則是人們正常下班回家的時間,導致其高值區域與低值區域正好與早上相反。上述數據分析結果與Alain對城市通勤模式的相關分析基本符合:現階段的城市通勤模式,呈現為定性的單中心通勤模式,以就業崗位聚集的位置為主要中心,其周邊的商業設施以及基礎設施等,也可以作為中心區域的覆蓋位置;由此向外,呈現為放射性的通勤流格局,在上午時段,通過出租車GPS軌跡數據,能夠進一步得出城市居民由外圍向中心聚集、傍晚時段由中心向外圍分散的行為特征。這種城市格局,是造成城市交通不暢的主要因素,在理想的城市規劃當中,城市結構應該是多中心格局,這樣一來,通過多個“中心”分散原有城市單一中心的人流承載量,能夠顯著緩解城市的整體交通壓力。這就要求在城市規劃過程中,要充分利用城市外圍中心,吸引周邊居民的就業與消費等出行習慣,從而分解城市日常運行過程中的城市中心的交通壓力。這種城市規劃格局長久以來都未能得到有效實現,屬于一種理想化的規劃目標。針對城市交通規劃,在多中心格局還無法全面實現的情況下,折中選擇了一種單一中心和多個次中心的組合結構模式,即在規劃過程中不進行主次中心的明確劃分,相應商務中心位置的就業崗位與商業設施等都進行均等分配建設的方式,在此基礎上,通勤流呈現為自由隨機的布置格局,長此以往,由于居民的日常行為習慣逐漸趨于穩定,就會形成單一中心和多個次中心的組合結構模式,而城市居民的出行特征,也就成為了放射狀與隨機共存的格局[3]。3.4實驗拓展。進一步拓展出租車GPS軌跡數據挖掘范圍,對其工作日與非工作日,同時段內的軌跡數據進行分析,能夠發現在工作日,出租車的軌跡數據以及城市居民的出行特征,呈現為上述早上由外圍向中心聚集,傍晚由中心向外圍分散的形式;而在非工作日,城市居民有居民區向更外圍出的火車站商圈以及旅游景區的輸出率明顯增高。此種研究,不僅有利于城市總體的交通規劃,對出租車行業來說,還能進一步降低出租車死機巡游方式下,空載率高的問題,進而更好的為城市居民提供出行服務,綜合提升出租車行業運營的經濟效益與社會效益。

4結語

綜上所述,對基于出租車GPS軌跡數據挖掘的居民出行特征進行相關研究,有利于推動城市交通規劃與出租車行業的共同發展。通過上述分析,基于高斯定律的軌跡數據挖掘方法,能夠更好的進行出租車凈流入量密度空間的分析,從而得出城市居民的出行行為特征。在未來的應用過程中,可改進文中所述方法存在的局限,充分利用GPS定位終端所產生的歷史軌跡數據,與出租車GPS軌跡數據結合應用,能夠得到更加精準的分析結果。

參考文獻:

[1]馮琦森.基于出租車軌跡的居民出行熱點路徑和區域挖掘[D].重慶:重慶大學,2016.

[2]譚康.基于GPS軌跡的道路拓撲構建和路徑選擇方法研究[D].湘潭:湖南科技大學,2015.

[3]程靜,劉家駿,高勇.基于時間序列聚類方法分析北京出租車出行量的時空特征[J].地球信息科學學報,2016,18(09):1227~1239.

[4]付鑫,孫茂棚,孫皓.基于GPS數據的出租車通勤識別及時空特征分析[J].中國公路學報,2017,30(07):134~143.

作者:王瑤 單位:重慶城市職業學院