William Yang

Oct 23

简单的数据挖掘

受matrix67(http://www.matrix67.com/blog/archives/5044)的启发,动手实现了一下他提到的抽词方法。代码在整理后我会放出来,下面是一些测试结果。

  1. 师兄帮帮忙网站任务中出现频率较高的部分词语【女生,地点,感谢,准备,女生节,电话,电脑,希望,清华,时间,指导,作业,自习,最近,软件,专业,电影,论文,数据,晚上,手机,吃饭,考试,经验,周末,工作,推荐,毕业,宿舍,重装】
  2. 我的微博(http://weibo.com/u/2056844374)只有106条,分析了一下,只抽出了一个词【师兄帮帮忙】
  3. 申磊的微博(http://weibo.com/u/1530797013)【转发微博,清华,网站,创业,感谢,中国】
  4. 师兄帮帮忙官方微博(http://e.weibo.com/sxbbm)【任务,同学,清华,北京,参与,朋友,开放,更多,即将,层乐队,哦亲,抽票】
  5. 我的微博上关注的人的最新微博,【手机,世界,老师,师兄,苹果,师兄帮帮忙,谷歌,技术,创业,香港,政府,钓鱼岛,教师节,日本,最右,互联网,企业家】……

【备注,对文本内容较少的样本进行抽词的时候,需要适当调整一些抽词指标。】

进行这样的数据挖掘还是蛮有意思的。简单分析一下由以上结果能推出的大致结论。

  1. 师兄帮帮忙网站的任务中,用户可能更偏向于发布【电脑,作业,自习,软件,专业,电影,论文】等相关的任务,任务时间会比较容易选择在【晚上,周末】,【工作】和【推荐】两个词出现的频率基本一直,所以可以说明有一部分同学希望在网站上得到一些关于【工作】的指导……这几个简单的词就够联想出很多内容了。【作业,自习,专业,论文】排位很高,说明“师兄帮帮忙”确实是一个地地道道的“校园”社区,也说明了广大同学们还是很在意学习的。同学们如果能学习交友两不误,那是最好不过的了,也是“师兄帮帮忙”创立的初衷。
  2. 我的微博就出现了一个词,果然不出所料,因为我开始长期使用微博的唯一原因就是“师兄帮帮忙”。
  3. 申磊比较关心【中国】的【网站】【创业】,很关心【清华】相关的事情,经常【感谢】他人,可能是由于创业过程中受到很多人的帮助吧。
  4. 师兄帮帮忙官方微博中的词语【北京,即将,开放】【参与,任务】,基本上可以体现其官方微博的特点。另外【哦亲】一次反应了主页君经常卖萌,【抽票】反应了通过官方微博发起或者宣传了一些活动,【层乐队】则是由于之前有讨论过给一个乐队起名,涉及的名字有【学研一层乐队,地下一层乐队,学研下层乐队,学研基层乐队,师兄一层乐队,师兄基层乐队】
  5. 我关注的微博中出现了【手机,苹果,谷歌,技术,创业,师兄帮帮忙,互联网】基本都是我希望了解的信息,【香港,钓鱼岛,日本,政府】最近这些话题比较火。

以后会尝试更多地对网站的一些内容进行一些更深入的挖掘。

再次感谢matrix67的启发。

根据经纬度计算距离【python】

代码 ,熟悉了计算方式,这个还是比较简单的。

计算小工具,做好的以后可以用这个工具对比一下,看看是不是正确的。

如何从数据库中筛选指定范围内的对象, 由于数据库中存的是经纬度,所以要率选指定范围的对象时,应该现根据指定距离,算出对应经纬度的范围,这样sql语句会好写很多~~

简单记录一下。

movingthestill:

Title: RGBArtist: Mathew Lucas


…

movingthestill:

Title: RGB
Artist: Mathew Lucas

“If u really want it”

师兄帮帮忙 -

最贴近东方校园文化的社交网站

Oct 22

差一点就破一万米了,可惜啊。 顺带测试一下用手机post的效果。

差一点就破一万米了,可惜啊。 顺带测试一下用手机post的效果。