你的私隱,你的選擇
MSLU-100K:中國主要城市土地利用分析的大型多源數據集
高質素的土地利用數據集對推動土地利用分類及識別研究至關重要。不過,土地利用本身的複雜性及空間異質性,令數據集建構面對不少難題。為解決這些問題,研究團隊推出了MSLU-100K數據集,涵蓋來自中國81個城市、超過10萬個不規則地塊樣本。這個數據集透過人機協作方式建構,結合了遙感影像與POI(興趣點)數據,把地塊分為7個主要類型及28個次級類型。創新的多層次分類方法結合人工標註與深度學習,確保數據質素分為六個等級,當中超過57%為高質素樣本(第4及5級),大大提升分類效能。這個數據集為土地利用識別、城市規劃和空間研究提供了堅實的基礎。
背景與總結
土地利用分類是城市規劃及可持續發展的基石,能有效反映地區的社會經濟貢獻。它亦為分析土地利用變化對生態環境的影響提供重要依據。隨著深度學習及地理空間大數據的發展,從多源時空數據中挖掘和整合自然物理及社會經濟屬性的能力,令精確土地利用識別變得可行。
在構建機器學習模型時,準備訓練數據往往需花大量時間,因為數據質素對模型表現至關重要。因此,高質素土地利用數據集對建立高效分類模型不可或缺。土地利用分類主要分為三個階段:數據抽樣、數據標註及模型訓練。隨著全球城市化加速,城市不斷擴張,土地利用類型日益複雜,數據的空間異質性及易混淆性,令數據抽樣、標註及訓練變得困難。
在數據抽樣階段,多尺度地塊會引發「可變區域單元問題」(MAUP),需要模型訓練時納入多尺度數據以確保穩健性。同時,土地利用的空間異質性令知識難以直接跨區域遷移,抽樣時必須考慮空間分布特性。標註階段則需要地理專業知識,且類別繁多、易混淆,令視覺解釋或AI自動標註難以兼顧效率與質素。訓練階段,類別不平衡及混合土地利用情況普遍,進一步增加模型訓練難度。
現時已有不少公開土地利用數據集,例如PatternNet、NWPU-RESISC45、EuroSAT及ILU-CUG等,為研究人員提供了豐富的實驗數據。不過,這些數據集在數量、標籤類別及地域覆蓋上存在差異,導致質素不一,直接影響分類模型表現。因此,如何準確評估數據集質素成為研究界的關鍵議題。
研究顯示,高質素訓練數據能顯著提升深度學習效能。評估數據質素的方法主要分為主觀和客觀兩種。主觀方法如志願者評分,受個人經驗及情緒影響,成本亦較高。近年,隨著深度學習技術發展,客觀評估方法如CNN、3D CNN等令數據質素評估更高效,但多只分「好」與「壞」,難以細緻劃分質素層次。因此,結合人工判斷與深度學習,有助提升評估準確度及全面性。
為應對上述挑戰,本研究以人機協作標註方式,構建了中國主要城市的多源土地利用數據集MSLU-100K。團隊提出多層次模型分類方法,結合人工篩選及模型軟分類概率,對數據集質素分級,並通過不同質素數據集訓練模型,驗證其可用性。
MSLU-100K是目前中國主要城市土地利用領域最大型的數據集之一,聚焦於不規則地塊,結合多源數據如遙感影像及POI,具高度空間異質性。這個全面多元的數據集,針對地塊特性,為提升土地利用分類的準確性和穩定性奠定基礎。其質素評估方法亦有效彌補過往標準的不足,尤其在評估全面性及準確性方面。
方法
數據集建構流程包括數據收集與處理、基於地塊大小及位置的樣本篩選、多源深度學習土地利用分類模型建構,以及人機協作標註與質素評估。
數據收集與處理
數據包括未標註地塊邊界(AOI),來源於阿里雲平台的行政區劃數據及OpenStreetMap的路網數據,經QGIS處理後產生全國共409,800個地塊。多源時空數據方面,結合遙感影像、POI及騰訊API取得的用戶密度數據,提升模型識別住宅、商業及公共用地的能力。
基於大小及位置的樣本篩選
過小或過大的地塊會成為噪音,影響模型訓練。研究團隊根據地塊面積及距市中心距離,設定最佳範圍(約3.9萬至67.7萬平方米),並調整權重比例,平衡城市核心與邊緣地區的樣本分布,優化地塊空間分布特徵。
不規則地塊土地利用分類模型
模型整合遙感影像、POI及人口時序數據。利用Poisson disk抽樣將不規則地塊轉為固定大小,經Swin-Transformer提取影像特徵,POI則以語義方法及NLP的skip-gram學習語義嵌入,人口時序特徵則以InceptionTime提取。各類特徵經加權融合,通過全連接層及SoftMax進行分類。
人機協作數據集建構
以模型預測輔助人工標註,提升效率。初期由核心團隊標註1,000條高質素數據,建立標準基準,隨後外聘專家及56名標註員大規模標註,並設立25%交叉驗證,標註準確率需達90%以上。最終產生約10萬條標註數據,涵蓋住宅、公共服務、商業、工業及農業地塊。
數據集質素評估
提出兩種評估方法:一為多層次模型分類(基於人工篩選),二為模型軟分類概率分級。兩者將數據分為0至5級。1,000條最嚴格篩選的數據訓練的模型能正確分類的為5級,10,000條擴展數據訓練的模型能分類的為4級,依此類推,直至0級(缺乏POI或遙感信息,無法分類)。
數據記錄
數據集包含兩個資料夾、一個Python程式及CSV文件。Classification文件夾儲存XML格式的元數據,ImageSets文件夾按土地利用類型存放遙感影像。DatasetGenerate.py可自動生成數據表MSLU-100K.csv,記錄類別、文件名、路徑、圖像尺寸、地理信息及主次類別。數據集在Open Science Framework免費公開。
技術驗證
數據集質素評估統計
根據兩種評估方法,4及5級高質素數據佔整體約57.1%,其中5級超過40%,4級超過10%,反映數據集整體質素高。高質素數據主要集中在住宅、農業及工業類型,顯示這些類型數據一致性較高。兩種方法各有側重,人工篩選法在識別能力上優勢明顯,但適應性較低;軟分類概率法則在處理數據不確定性上更細緻。未來可考慮兩者結合,提升分類準確度及應對複雜數據集的能力。
模型表現評估
模型以不同質素分級數據集訓練,並以5,000條經人工審核的樣本作測試集。整體數據集測試準確率為0.86,kappa為0.804;5級高質素數據集測試準確率高達0.975,kappa為0.965。結果顯示,高質素小數據集訓練的模型,在土地利用功能識別上優於大規模低質素數據集。值得留意的是,部分0級數據雖然缺乏POI,但這種「缺乏」本身亦可成為區分欠發展地區的特徵,有助空間格局分析。
土地利用制圖結果
MSLU-100K數據在全國城市分布如圖所示,南方城市因經濟發展及土地利用複雜度高,樣本密度較大。模型以此數據集在全國進行土地利用預測,整體準確率達71.5%。其中,面積過大或過小的地塊預測準確率較低,部分大地塊位於偏遠地區,POI數據稀疏,難以準確判斷用途。
編輯評論與深度解讀
這項研究的最大突破,在於以人機協作方式,將深度學習與地理專業知識結合,建構出目前中國最全面的城市土地利用數據集。這不僅解決了傳統人工標註效率低、成本高的問題,亦大幅提升數據質素的可控性與透明度。多層次質素評估方法,為未來土地利用數據集的標準化提供了新方向,值得其他國家或地區參考。
特別值得關注的是,研究團隊並未單純以數據量取勝,而是強調「質」與「量」的平衡。事實證明,少量高質素數據集訓練的模型,在分類準確率上遠勝於大數據集。這對於AI應用於空間規劃、城市管理甚至智慧城市發展具重大啟示——「數據質素」比「數據規模」更關鍵。
另一個重要啟發,是對「缺失數據」的重新評價。以往,缺乏POI的地塊常被視為無用樣本,但本研究指出,這種「缺失」本身就是一種區分城市與鄉郊、發展與落後的隱性特徵。未來,城市規劃者及AI開發者應更重視數據「空白」所蘊含的空間意義。
最後,這個數據集雖以中國為例,但其人機協作、質素分級及多源融合的技術路線,完全可推廣至全球不同城市。對於香港這類高密度、混合土地利用的城市,這種方法有助提升土地規劃、資源配置及智慧城市決策的科學性與前瞻性。
總結而言,MSLU-100K不僅是數據集,更是一套推動城市土地利用AI研究與應用的創新框架。未來,隨著更多多源數據(如IoT、實時交通、社交媒體)加入,這種以質為本的土地利用數據生態,將為城市可持續發展帶來革命性突破。