首页
关于
论坛
投稿
搜索
文本
2019-08-07
1 / 1
统计应用
标题党统计学
邱怡轩
/
2016-07-02
如果你是被这个标题骗进来的,那么说明标题党的存在的确是有原因的。 在网络高度发达(以及“大数据”泛滥)的今天,数据动不动就是以 GB 和 TB 的级别存储,然而相比之下,人类接受信息的速度却慢得可怕(参见大刘《乡村教师》)。 试想一下,你一分钟能阅读多少文字?一千?五千?总之是在 KB 的量级。 所以可以说,人们对文字的“下载速度”基本上就是 1~10KB/min。如果拿这个速度去上网的话你还能……
统计软件
中文文本处理简要介绍
李绳
/
2016-01-07
本文作者李绳,博客地址 http://acepor.github.io/。作者自述: […] 一位文科生曾励志成为语言学家 出国后阴差阳错成了博士候选人 三年后交完论文对学术彻底失望 回国后误打误撞成了数据科学家 […] 作为一个处理自然语言数据的团队,我们在日常工作中要用到不同的工具来预处理中文文本,比如 Jieba 和 Stanford NLP software。出……