作者:发布于:2017年08月15日 | 浏览 245 |评论关闭 | 标签:, , , ,

大数据、语料库与文化基因组学

关于大数据,不同的学者、不同的信源,对其解释可能完全不同。

这是互动百科的解读:

大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理。

大数据有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。  (http://www.baike.com/wiki/大数据)

而维基百科的定义是:

大数据(英语:Big data[1][2][3]),又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。在总数据量相同的情况下,与个别分析独立的小型数据集(Data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等;这样的用途正是大型数据集盛行的原因。

再说语料库。

语料库属于应用语言学的范畴,和我们教育技术学也有一定的距离。因为要开设《英语教学与互联网》慕课课程,内容涉及语料库,因而,从同事和我的学生那里对语料库也有一定的了解。

从相关介绍来看,所谓语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续语言运用文本或话语片段(也就是所谓的语料),而建成的、具有一定容量的大 型电子文本库。

语料,语料,顾名思义,就是语言材料,包括口语材料,也包括书面材料。语料的原始来源很多,可能是教材、报纸、综合性刊物、图书等等。​​

用北京外国语大学李文中教授的话说,A corpus is a large collection of electronic sample texts of natural language use。 这个a large collection,在数量巨大,甚至海量的时候,从这个意义上看,这语料库的数据量可以说是蛮大的。

随着语料库语言学的发展,语料的来源正在由传统媒介和来源,向新媒体、社会性网络和互联网发展。从这个意义上说,语料库与大数据技术的结合,相信是趋势之一。

0in最后我们再来说说这文化基因组学。

文化基因组学的英文名称:culturomics。 它是由Culture (文化)和  Genomics (基因组学)两个英文单词组成的一个全新的合成词。这个文化基因组学(Culturomics) 指的是对所有数字化的文本进行科学的分析,或者叫大数据的分析,也就是通过研究人们使用词汇、组合词汇,以及词汇变迁的情况,来揭示人类的行为和文化的变迁。

文化基因组学是指通过电子化文本的量化分析研究人类行为与文化趋势的计算词典学方法。研究者对海量数字档案进行数据挖掘以研究人们使用的语言与词汇,进而揭示其中反应出来的文化现象。

最早提出文化基因组学概念的是两位哈佛大学的研究者,数学博士,艾略兹·利波曼·艾登(Erez Lieberman Aiden)和让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)。2011年11月16日,艾略兹·利波曼·艾登和让-巴蒂斯特·米歇尔在《科学》(Science)杂志上发表了一篇文章,题目为《通过海量电子化书籍对文化进行量化分析》(Quantitative Analysis of Culture Using Millions of Digitized Books)的文章,文中首次提出了“文化基因组学”(culturomics)的概念。

就目前来看,大数据、语料库、文化基因组学会在互联网时代合流汇聚,殊途同归。后续要持续关注这几个领域的交叉地带!