首页
关于
论坛
投稿
搜索
分词
2019-08-07
1 / 1
统计应用
标题党统计学
邱怡轩
/
2016-07-02
如果你是被这个标题骗进来的,那么说明标题党的存在的确是有原因的。 在网络高度发达(以及“大数据”泛滥)的今天,数据动不动就是以 GB 和 TB 的级别存储,然而相比之下,人类接受信息的速度却慢得可怕(参见大刘《乡村教师》)。 试想一下,你一分钟能阅读多少文字?一千?五千?总之是在 KB 的量级。 所以可以说,人们对文字的“下载速度”基本上就是 1~10KB/min。如果拿这个速度去上网的话你还能……
统计软件
中文文本处理简要介绍
李绳
/
2016-01-07
本文作者李绳,博客地址 http://acepor.github.io/。作者自述: […] 一位文科生曾励志成为语言学家 出国后阴差阳错成了博士候选人 三年后交完论文对学术彻底失望 回国后误打误撞成了数据科学家 […] 作为一个处理自然语言数据的团队,我们在日常工作中要用到不同的工具来预处理中文文本,比如 Jieba 和 Stanford NLP software。出……
R语言
jiebaR中文分词——R的灵活,C的效率
覃文锋
/
2014-11-15
记得刚接触R的时候,有一种莫名的抵触,A、B、C、D、E那么多种语言了,为什么又多冒出来一个R?为了时间序列的课程,我又要多记忆一大堆乱七八糟的语法。当发现居然有dd <- 23333 23333 -> ee 这样的语法时,更瞬间奠定了R语言在我心中的逗比地位。 因为老师没有专门教授R的相关细节,毕竟课程的主题不是那个,加之R的语法与众不同,这导致我的R语言相关作业的绝大部分时间一般都……
统计应用
新浪微博文本分析初探v0.1
郝智恒
/
2013-01-13
v0.1版本说明:本文发在主站上之后,站友们经常评论代码跑着有问题。经过和lijian大哥等人进行咨询,自己也摸索了一些之后,发现了之前代码非常多的漏洞。因此,给广大站友带来了困扰。在这里我表示万分的抱歉。最近邮箱中收到让我整理代码的需求越来越多。我也非常想整理下,但是由于工作也非常繁忙,所以很难抽出时间。前两天说5.1期间会整理一下代码发出来。但是事实上因为5.1小长假期间我可能无法上网,导致无……
统计应用
统计词话(一)
邱怡轩
/
2011-03-04
不知道这个标题是否有足够的吸引力把你骗进来。如果你认为统计是一个到处充满了期望方差分布回归随机多元和概率的东西,那么……你可能是对的,不过本文想要告诉你的是,你其实还可以用统计来做一些你关心的事情,比如现在,我们既谈风月,也谈统计。:D 相信大家对宋词都不会陌生。无论你是否喜欢,总还是可以吟诵出几句名篇来的。如果你经常找一些宋词来读的话,你可能会发现一个有趣的现象,那就是有些词语或意象似乎特别受到……