大数据的出现带来了不可估量的价值,无论是研究选题还是研究对象,像一个巨大的宝库,等待我们去探索、挖掘。海量的数据就围绕在我们身边,触手可得。
但是
大数据的出现也给我们带来了很多的困扰,尤其是做文本数据研究过程中,
如何来处理这些大数据呢?
文本数据分析耗时耗力
分析出来的结果难以保证质量
……
什么是大数据?
大数据的特点是规模大,类型多, 速度快……
相较于传统的数据处理能力,大数据是“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等特征”[1]。
要处理海量的数据,要求我们具备储存、处理与分析大数据的技术或能力。
然而作为社会科学领域的我们,学习技术、编程、代码……
还来得及不?
问题是,我可能学不会……
那让我们来看看计算机能帮我们做什么吧!
计算机的辅助角色
传统的方法和技术在面对海量的文本数据时,已经力不从心,因而人工在文本数据分析的角色由事无巨细的全程包办转向人工主导,计算机辅助。
计算机辅助内容分析主要是借助计算机进行内容分析的相关操作,区别于传统内容分析,计算机辅助内容分析主要在于机器在内容分析过程中有一定程度的参与。
计算机的辅助角色有两种:
一种是作为技术导入的计算机辅助内容分析,将语言学、认知心理学和自然语言处理技术相结合,通过语义建模(modeling semantics)让计算机快速处理大规模的文本 ,进而挖掘文本的深层意义。
另一种是作为辅助工具的计算机辅助传统内容分析操作流程中的某些环节,如计算机辅助进行人工编码的操作,通过计算机辅助提升分析能力和工作效率,批量、快速、准确地处理显性文本内容。
那么计算机究竟在哪些环节辅助呢?
让我们来看一下传统的内容分析的操作流程:
一步一步来
题材拟定、文献探讨、研究假设确定后,
从数据的准备开始,除了定位分析单位和类目建构外,都是可以在线上由计算机辅助进行的。
数据收集
无论您准备的数据是来自媒体报道、社交媒体帖文、文献资料、文学作品还是图片,都可以将数据一键上传至数据库,供您随时随地进行查阅、检索、分析。
抽样
建立好您的研究数据库后,选取抽样方法、设定抽样条件即可完成抽样库的建立。
编码表设定
您可以在线上通过新建题目进行设定,也可以在线下准备好编码表,上传至平台上。为了方便您的研究,平台提供了类目参考题库,供您选择使用。
信度测试
可在线上建立测试库,培训编码员后在线上进行信度测试的内容编码,信度结果实时得出。
内容编码
区别于传统的做法,线上内容编码的界面友好,同时有机器辅助编码和机器自动编码,大大提升研究效率。编码员之间的操作和效率可以实时检查。
实时编码结果检查
完成编码后,编码结果实时得出。
统计分析和可视化
统计分析以拖拽变量的方式线上完成,多种可视化表格任意选择。统计分析结果可以追踪至原文。
大家可以自己制作一个文本内容分析的研究流程,体验一下大数据技术辅助在线内容分析法,快速完成一个研究。