华侨大学数据挖掘与创新管理研究团队2019年10月24日例会--基于时间序列聚类的文献主题分析研究汇报

华侨大学数据科学与创新管理研究团队

更多动态

6270

2019-11-01

2019-11-08

时间：2019年10月24日

汇报人：邬先利

存在的问题：

1.目录的小标题名字不合适

2.文献综述重心偏移了，重点应该抓住文献主题分析，把其做透，并且应该放在最前面分析，分析完之后应该有个小总结，由此再来引出我们可能要从时间序列的角度来研究，进而有下一小节的时间序列聚类的文献综述内容。时间序列数据的挖掘我们选择从时间序列聚类方向出发，时间序列聚类现有的方法以及应用，再分析优缺点，引出时间序列聚类的改进，自然而然，环环相扣。原文综述过于简单，应该要通过看的近五年的文章自己好好归纳。

3.现有研究不足太多，提2-3个就够。研究不足是后文需要解决的问题，你必须在提出后解决，所以不宜提出太多。

4.文章中话语要仔细，不能太主观。

5.逻辑框架和技术路线图，太简单，AP聚类都没有在前面呈现出来。思路要清楚，什么方法解决什么问题？得到什么结论？一定要围绕文献主题分析来写。

6.主线偏离了。一个重心，不能两个重心。主题分析研究一定需要充实。

7.图和表一定要详细阐述。

8.方法是有改进，但是对应到主题发现这一块的物理意义不明确。把片段划分的二维图加入时间轴维度，对应分析主题与主题之间在哪些时间段内会有相似的共现度。边没用反映出主题之间的相关性的问题，所以数据如何来描述？归根结底还是要在相似性那边来做变化。

主要针对问题8得到的思想（知道问题倒过来找方法）：

主要是相似的问题，这里的相似不能单用数值额相似去度量，而是要用它们背后的共现次数去度量。

例如：A和B两个主题在窗口大小为2年的相似性度量。A主题2018年出现40次，2019年出现30次，B主题2018年出现了30次，2019年出现40次。在比较两个窗口之间的相似性时，不是用欧式距离去算，而是通过两个主题在这一段时间内对应的每个时间点的共现率来计算相似性。假设A主题和B主题在2018年共同出现的次数为10次，在2019年出现的次数为8次，再结合余弦相似性度量的方法来度量相似性，这里用余弦相似性的一个好处是可以避免一个主题出现，另一个主题没有出现带来的度量问题，这种情况两个主题之间是没用可比性的。得到相似性后再结合我们前面提出的方法，将其转换为网络，进行聚类。

其中要注意的一个点是因为共现的关系，所以滑动窗口是同步滑动的，不能有时间差的滑动。

感悟：

该方法的巧妙之处在于，其实A和B的共现也是时间序列，根据这个序列结合我们的将方法，再将其映射到网络结构中，最后聚类，这样的做法即充分地考虑了共现关系，并在此基础上加入了时间影响因素，而且还合理地运用了我们前面提到的聚类方法。从主题发现和时间序列聚类的应用角度来说都做到了改进：（1）主题发现方面，加入了时间因素，可以较为直观地发现主题间在哪些时间区间内具有密切的关系；（2）时间序列聚类应用方面，传统的时间序列聚类方法是从数值的角度出发的，没用达到将时间序列关系进行聚类的效果，然而我们提出的方法通过将时间序列转换成网络的方式，充分反映了网络间的关系，在实际的应用中更具科学性。

最后的结论：

前三章还是按照原有的架构，第三章还是写时间序列聚类的方法，将第五章提前改为第四章，第五章用改进的方法加改进的应用来写，相对于第三章方法是普及性的，针对文献主题分析我们将其特例化了，做到能实质性解决问题。对于图后面的画法也要做相应的改变，加入时间轴因素。

登录用户可以查看和发表评论，请前往登录或注册。