中國城市土地利用：MSLU-100K多源數據集

zero comment

Ai Finance Tech

你的私隱，你的選擇

MSLU-100K：中國主要城市土地利用分析的大型多源數據集

高質素的土地利用數據集對推動土地利用分類及識別研究至關重要。不過，土地利用本身的複雜性及空間異質性，令數據集建構面對不少難題。為解決這些問題，研究團隊推出了MSLU-100K數據集，涵蓋來自中國81個城市、超過10萬個不規則地塊樣本。這個數據集透過人機協作方式建構，結合了遙感影像與POI（興趣點）數據，把地塊分為7個主要類型及28個次級類型。創新的多層次分類方法結合人工標註與深度學習，確保數據質素分為六個等級，當中超過57%為高質素樣本（第4及5級），大大提升分類效能。這個數據集為土地利用識別、城市規劃和空間研究提供了堅實的基礎。

背景與總結

土地利用分類是城市規劃及可持續發展的基石，能有效反映地區的社會經濟貢獻。它亦為分析土地利用變化對生態環境的影響提供重要依據。隨著深度學習及地理空間大數據的發展，從多源時空數據中挖掘和整合自然物理及社會經濟屬性的能力，令精確土地利用識別變得可行。

在構建機器學習模型時，準備訓練數據往往需花大量時間，因為數據質素對模型表現至關重要。因此，高質素土地利用數據集對建立高效分類模型不可或缺。土地利用分類主要分為三個階段：數據抽樣、數據標註及模型訓練。隨著全球城市化加速，城市不斷擴張，土地利用類型日益複雜，數據的空間異質性及易混淆性，令數據抽樣、標註及訓練變得困難。

在數據抽樣階段，多尺度地塊會引發「可變區域單元問題」（MAUP），需要模型訓練時納入多尺度數據以確保穩健性。同時，土地利用的空間異質性令知識難以直接跨區域遷移，抽樣時必須考慮空間分布特性。標註階段則需要地理專業知識，且類別繁多、易混淆，令視覺解釋或AI自動標註難以兼顧效率與質素。訓練階段，類別不平衡及混合土地利用情況普遍，進一步增加模型訓練難度。

現時已有不少公開土地利用數據集，例如PatternNet、NWPU-RESISC45、EuroSAT及ILU-CUG等，為研究人員提供了豐富的實驗數據。不過，這些數據集在數量、標籤類別及地域覆蓋上存在差異，導致質素不一，直接影響分類模型表現。因此，如何準確評估數據集質素成為研究界的關鍵議題。

研究顯示，高質素訓練數據能顯著提升深度學習效能。評估數據質素的方法主要分為主觀和客觀兩種。主觀方法如志願者評分，受個人經驗及情緒影響，成本亦較高。近年，隨著深度學習技術發展，客觀評估方法如CNN、3D CNN等令數據質素評估更高效，但多只分「好」與「壞」，難以細緻劃分質素層次。因此，結合人工判斷與深度學習，有助提升評估準確度及全面性。

為應對上述挑戰，本研究以人機協作標註方式，構建了中國主要城市的多源土地利用數據集MSLU-100K。團隊提出多層次模型分類方法，結合人工篩選及模型軟分類概率，對數據集質素分級，並通過不同質素數據集訓練模型，驗證其可用性。

MSLU-100K是目前中國主要城市土地利用領域最大型的數據集之一，聚焦於不規則地塊，結合多源數據如遙感影像及POI，具高度空間異質性。這個全面多元的數據集，針對地塊特性，為提升土地利用分類的準確性和穩定性奠定基礎。其質素評估方法亦有效彌補過往標準的不足，尤其在評估全面性及準確性方面。

方法

數據集建構流程包括數據收集與處理、基於地塊大小及位置的樣本篩選、多源深度學習土地利用分類模型建構，以及人機協作標註與質素評估。

數據收集與處理
數據包括未標註地塊邊界（AOI），來源於阿里雲平台的行政區劃數據及OpenStreetMap的路網數據，經QGIS處理後產生全國共409,800個地塊。多源時空數據方面，結合遙感影像、POI及騰訊API取得的用戶密度數據，提升模型識別住宅、商業及公共用地的能力。

基於大小及位置的樣本篩選
過小或過大的地塊會成為噪音，影響模型訓練。研究團隊根據地塊面積及距市中心距離，設定最佳範圍（約3.9萬至67.7萬平方米），並調整權重比例，平衡城市核心與邊緣地區的樣本分布，優化地塊空間分布特徵。

不規則地塊土地利用分類模型
模型整合遙感影像、POI及人口時序數據。利用Poisson disk抽樣將不規則地塊轉為固定大小，經Swin-Transformer提取影像特徵，POI則以語義方法及NLP的skip-gram學習語義嵌入，人口時序特徵則以InceptionTime提取。各類特徵經加權融合，通過全連接層及SoftMax進行分類。

人機協作數據集建構
以模型預測輔助人工標註，提升效率。初期由核心團隊標註1,000條高質素數據，建立標準基準，隨後外聘專家及56名標註員大規模標註，並設立25%交叉驗證，標註準確率需達90%以上。最終產生約10萬條標註數據，涵蓋住宅、公共服務、商業、工業及農業地塊。

數據集質素評估
提出兩種評估方法：一為多層次模型分類（基於人工篩選），二為模型軟分類概率分級。兩者將數據分為0至5級。1,000條最嚴格篩選的數據訓練的模型能正確分類的為5級，10,000條擴展數據訓練的模型能分類的為4級，依此類推，直至0級（缺乏POI或遙感信息，無法分類）。

數據記錄

數據集包含兩個資料夾、一個Python程式及CSV文件。Classification文件夾儲存XML格式的元數據，ImageSets文件夾按土地利用類型存放遙感影像。DatasetGenerate.py可自動生成數據表MSLU-100K.csv，記錄類別、文件名、路徑、圖像尺寸、地理信息及主次類別。數據集在Open Science Framework免費公開。

技術驗證

數據集質素評估統計
根據兩種評估方法，4及5級高質素數據佔整體約57.1%，其中5級超過40%，4級超過10%，反映數據集整體質素高。高質素數據主要集中在住宅、農業及工業類型，顯示這些類型數據一致性較高。兩種方法各有側重，人工篩選法在識別能力上優勢明顯，但適應性較低；軟分類概率法則在處理數據不確定性上更細緻。未來可考慮兩者結合，提升分類準確度及應對複雜數據集的能力。

模型表現評估
模型以不同質素分級數據集訓練，並以5,000條經人工審核的樣本作測試集。整體數據集測試準確率為0.86，kappa為0.804；5級高質素數據集測試準確率高達0.975，kappa為0.965。結果顯示，高質素小數據集訓練的模型，在土地利用功能識別上優於大規模低質素數據集。值得留意的是，部分0級數據雖然缺乏POI，但這種「缺乏」本身亦可成為區分欠發展地區的特徵，有助空間格局分析。

土地利用制圖結果
MSLU-100K數據在全國城市分布如圖所示，南方城市因經濟發展及土地利用複雜度高，樣本密度較大。模型以此數據集在全國進行土地利用預測，整體準確率達71.5%。其中，面積過大或過小的地塊預測準確率較低，部分大地塊位於偏遠地區，POI數據稀疏，難以準確判斷用途。

編輯評論與深度解讀

這項研究的最大突破，在於以人機協作方式，將深度學習與地理專業知識結合，建構出目前中國最全面的城市土地利用數據集。這不僅解決了傳統人工標註效率低、成本高的問題，亦大幅提升數據質素的可控性與透明度。多層次質素評估方法，為未來土地利用數據集的標準化提供了新方向，值得其他國家或地區參考。

特別值得關注的是，研究團隊並未單純以數據量取勝，而是強調「質」與「量」的平衡。事實證明，少量高質素數據集訓練的模型，在分類準確率上遠勝於大數據集。這對於AI應用於空間規劃、城市管理甚至智慧城市發展具重大啟示——「數據質素」比「數據規模」更關鍵。

另一個重要啟發，是對「缺失數據」的重新評價。以往，缺乏POI的地塊常被視為無用樣本，但本研究指出，這種「缺失」本身就是一種區分城市與鄉郊、發展與落後的隱性特徵。未來，城市規劃者及AI開發者應更重視數據「空白」所蘊含的空間意義。

最後，這個數據集雖以中國為例，但其人機協作、質素分級及多源融合的技術路線，完全可推廣至全球不同城市。對於香港這類高密度、混合土地利用的城市，這種方法有助提升土地規劃、資源配置及智慧城市決策的科學性與前瞻性。

總結而言，MSLU-100K不僅是數據集，更是一套推動城市土地利用AI研究與應用的創新框架。未來，隨著更多多源數據（如IoT、實時交通、社交媒體）加入，這種以質為本的土地利用數據生態，將為城市可持續發展帶來革命性突破。

Download TXT

中國城市土地利用：MSLU-100K多源數據集

chatgpt

🔥 CHATGPT PLUS 帳戶出租

中國城市土地利用：MSLU-100K多源數據集

chatgpt

Related Articles

鮑威爾澄清司法調查焦點非總部翻新

美股期貨微跌 蓄勢待發迎CPI及Q4財報

李成剛：中美貿易談判背後的智囊高手

🔥 CHATGPT PLUS 帳戶出租

美股期貨微跌蓄勢待發迎CPI及Q4財報