報告題目1:面向千萬以上數據量級的并行軌跡相似性連接
報告時間:2020年12月2日(周三)下午14:30
報告地點:計算機學院B403會議室
報告人:商爍
報告人單位:電子科技大學
報告人簡介:
The matching of similar pairs of objects, called similarity join, is fundamental functionality in data management. We consider the case of trajectory similarity join (TS-Join), where the objects are trajectories of vehicles moving in road networks. Thus, given two sets of trajectories and a threshold θ, the TS-Join returns all pairs of trajectories from the two sets with similarity above θ. This join targets applications such as trajectory near-duplicate detection, data cleaning, ridesharing recommendation, and traffic congestion prediction.
With these applications in mind, we provide a purposeful definition of similarity. To enable efficient TS-Join processing on large sets of trajectories, we develop search space pruning techniques and take into account the parallel processing capabilities of modern processors. Specifically, we present a two-phase divide- and-conquer algorithm. For each trajectory, the algorithm first finds similar trajectories. Then it merges the results to achieve a final result. The algorithm exploits an upper bound on the spatiotemporal similarity and a heuristic scheduling strategy for search space pruning. The algorithm’s per-trajectory searches are independent of each other and can be performed in parallel, and the merging has constant cost. An empirical study with real data offers insight in the performance of the algorithm and demonstrates that is capable of outperforming a well-designed baseline algorithm by an order of magnitude.
報告題目2:時空大數據流的實時查詢與分析
報告時間:2020年12月2日(周三)下午15:30
報告地點:計算機學院B403會議室
報告人:陳力思
報告人單位:電子科技大學
報告人簡介:
隨著社交網絡應用的飛速發展和可穿戴智能移動設備的普及,時空數據的體量在近年快速增長。其中,時空文本數據和時空軌跡數據是時空數據中最普遍、應用最廣泛的兩種數據類型。如何有效的存儲、索引、分析這兩類數據是數據分析和數據挖掘領域的重要問題,其結果可應用于行程規劃、交通流量預測、區域輿論分析、突發事件監測等方面,進而優化交通資源配置、加深用戶對時空數據的語義理解。該報告首先介紹時空文本數據和時空軌跡數據的定義和研究現狀,隨后介紹基于發布-訂閱模型的時空文本大數據流的實時分析算法、時空軌跡大數據搜索與拼接算法、基于時空軌跡數據的路徑規劃。
報告題目3:基于逐對偏好比較的眾包top-k查詢處理
報告時間:2020年12月2日(周三)下午16:30
報告地點:計算機學院B403會議室
報告人:王皓
報告人單位:南京信息工程大學
報告人簡介:
眾包作為一種新型計算模式,能夠有效利用人類智能來處理對機器而言富于挑戰的計算任務,其基本思想是將復雜問題分解為一系列簡單的“任務”,由具備一定常識或技能的人群來加以解決,花費一定的經濟代價。報告著重討論基于逐對比較的眾包top-k查詢處理,以求在確保兩兩比較結果具備較高置信度的前提下最小化經濟代價。報告將介紹眾包top-k查詢處理的研究現狀,并介紹一種新穎的查詢處理框架SPR及其擴展版本SPR+,在不同的應用場景中對眾包top-k查詢進行有效處理。報告將展現SPR和SPR+在多個實驗數據集上的性能。
邀請人:彭智勇 教授、 杜博 教授
版權所有 ?武漢大學計算機學院 | copyright ? 2008-2020 School of Computer Science, Wuhan University. All Rights Reserved.