【让研究更容易】如何结合机器与人工进行文本数据研究?



  • 这一篇着重于如何实现人工智能与社会科学研究方法的结合。基于大数据技术辅助在线内容分析的发展和实践操作,如何运用DiVoMiner进行文本数据挖掘与分析。

    1.大数据技术辅助在线内容分析如何发展而来?
    2.什么是大数据技术辅助在线内容分析法,如何操作?
    3.这个方法可以分析哪些内容?应用于哪些领域?

    在社会科学研究领域中,从传统内容分析到计算机辅助内容分析,直至发展到结合人工智能算法和大数据技术的内容分析,文本内容的挖掘与分析方法随着技术的发展和研究的需要,其意义挖掘的深度由浅层逐渐转向了深层。本文介绍了大数据技术辅助内容分析的操作流程和应用领域。

    在社会科学研究领域中,从传统内容分析到计算机辅助内容分析,直至发展到结合人工智能算法和大数据技术的内容分析,文本内容的挖掘与分析方法随着技术的发展和研究的需要,其意义挖掘的深度由浅层逐渐转向了深层。本文介绍了大数据技术辅助内容分析的操作流程和应用领域。
    大数据内容分析发展图.jpg

    内容分析法

    内容分析法是社会科学研究方法中的一种对文本内容进行编码、分类、语义判断及形成可供统计分析之用的量化分析方法。它是指一种以系统、客观与量化的方式,来研究与分析传播内容,以测量及解读内容的研究方法。[1]

    回首过去

    追溯到1961年,在韦伯字典中出现了“content analysis”(内容分析)一词[2],那时内容分析主要用于神学研究,主要以修辞学的方法研究非宗教思想和其他异端思想的传播。在两次世界大战期间,拉斯韦尔(Harold D. Lasswell)运用内容分析法分析报纸的报道内容,研究战争期间的宣传技巧。

    后来,内容分析法成为了一种独立、科学的研究方法,作为“社会科学的重大进展”之一[3],逐渐应用在了社会科学的各领域中。

    可以用内容分析法做什么?

    内容分析被看成是一种研究方法,该方法使用一整套程序,在文本中得出有效推论[4]。具体方式为测量大众媒介中的某些变量的数量[5]。即“对传播符号的系统性且可重复(replicable)的考察,即根据有效的测量规则对其赋值,并对那些数值涉及的关系运用统计方法进行分析,以便对传播做出描述,对它的意义进行推论”[6]。

    内容分析法是一种研究方法,它是系统的、可重复使用的研究方法,用来把杂乱无章的非结构化文本内容转化成结构化的数据,也就是可视化图表,以对内容进行分析、解读,得出深入的推论、洞察,挖掘价值。

    箭头.jpg
    图.jpg

    注:博易数据DiVoMiner文本大数据挖掘及分析平台中【统计分析】模块的部分页面截图


    计算机辅助内容分析

    一种是作为辅助工具,辅助进行数据处理和数据管理。那是在20世纪60年代,哈佛大学的比兹·斯通 (Biz Stone)、埃文·威廉姆斯 (Evan Williams)等人研发了一种计算机辅助定量内容分析的软件——General Inquirer(GI)系统[7],辅助进行内容分析中的数据处理的相关操作,计算机技术辅助内容分析的应用逐渐开始。

    1980年代,一系列计算机辅助定性分析(computer assisted/aids qualitative data analysis,CAQDAS)软件陆续出现了,例如MAXQDA,NVivo以及ATLAS.ti,辅助进行数据管理、编码、检索、注释和可视化呈现等。[8]

    软件汇总.jpg
    另外一种是作为技术主导的计算机辅助内容分析。也就是结合语言学、认知心理学,将文本浅层意义的发现推向深层意义的挖掘,将大数据平台与人工智能算法结合,辅助在线内容分析进行自然语言处理,挖掘文本深层意义和洞察。


    大数据技术辅助在线内容分析

    大数据技术辅助在线内容分析法是我们提出的一种改良的研究方法。(张荣显,曹文鸳:《网络舆情研究新路径:大数据技术辅助网络内容挖掘与分析》,《汕头大学学报》(人文社会科学版)2016年,第8期,第111-121页。)

    计算机辅助内容分析开始结合人工智能算法和大数据技术,这体现在数据采集、数据存储、数据处理和数据分析的过程中,均需要借助技术手段,尤其是在大数据研究过程中面临的种种挑战,如信息的覆盖度问题、数据的测量问题和海量信息的分析结果的解释度问题,均需要结合智能技术、科学严谨的研究方法来解决这些问题,因而大数据技术辅助在线内容分析法应运而生[9]。

    机制图.jpg

    具体操作过程

    大数据技术辅助在线内容分析法基于科学的方法论——内容分析法的基本流程,运用网络挖掘、机器学习、自然语言文本处理、人工智能编码、实时信度测试、统计分析、社交网络分析等实现文本大数据的在线处理,产出定制性的文本大数据项目研究成果。具体的操作流程如下:(它是一个严谨的方法论研究流程)

    流程图.jpg

    有颜色填充的部分都是可以在线完成的,整个大数据技术辅助在线内容分析法都可以在智能科学的DiVoMiner文本大数据挖掘及分析平台上进行。

    在我们确定了研究问题或假设后,研究数据库的建立、抽样、信度、编码、统计分析、可视化呈现等均可在线完成。

    分析什么内容?

    首先明确内容所指涉的对象,是任意一种可被传播的消息,包括“单词、意义、描述(pictures)、符号、思想、主题等”,区别于文本分析仅限于文本或副本,内容分析的文本则是来源于传播的媒介,包括书面的、视觉上的或是口头表达的[10],包括书籍、章节、采访、讨论、报纸标题和文章、历史资料、演讲、谈话、广告、戏剧、非正式交谈或者任何交流性的语言[11]。

    也就是说,任何符号都可以用来做内容分析。社会科学研究中大多都是针对新闻报道、社交媒体内容、文学作品、历史档案、访谈、学术文献、政策文本、发言稿、图片和视频等进行内容分析。

    类别文本.jpg

    可应用于哪些领域?

    希望大家可以在各自的领域中尝试运用内容分析法进行研究。当然,这只是部分的应用领域,大家了解了大数据技术辅助在线内容分析法后,可以尝试更多的领域和方向。

    √商业领域中,有研究者使用内容分析法评估相关行业的发展趋势。
    √社会服务方面可利用内容分析法监测舆情。
    √新闻传播学领域,主要应用于检视媒体报道、关注的重点、社会舆论情况,揭示传播内容的特征、发展走向或者影响内容的因素,检验传播者与传播内容之间的关联性,推导或验证媒体内容的传播效果等。
    √心理学和行为学领域,主要应用于分析个体或特定群体的心理倾向、特征及其相应的行为取向和特征,以及对某一对象的态度和看法等,比如消费者心理和行为分析、对政治领袖的拥护度分析等。
    √情报学领域,可利用内容分析法中常见的主题词词频分析来描述不同学科、知识领域乃至研究主体之间的交叉、渗透和相互关联,解释学科结构与发展动向,为科学管理与预测的研究提供依据。
    √政治学领域,研究政策发展变迁。
    √宗教领域,研究佛经中的内容特征和传播特点。
    √文学领域,研究文学作品中人物角色关系、语言风格特征等。
    √教育学领域,研究教学材料、中西教育制度、教育方法、观念等。
    √会展和旅游业领域,研究品牌形象定位与传播。
    √其他……欢迎各位前来补充,小编大喜过望。

    学科.jpg

    小提示

    了解到大数据技术辅助在线内容分析法可以应用的一些领域后,小编来给大家提供一些具体研究方向的参考,那就以传播学为例吧!

    可从传播过程中所涉及到的传播内容、传播者、受众的角度设计内容分析的研究模式。

    比较传播者之间的差异

    分析同一传播来源的内容,在不同时期或阶段的变化。例如:分析过去10年来新闻媒体的环保新闻报导主题的变化。
    评估情势对传播内容的影响

    探讨同一传播来源的内容,在不同的历史、政治、文化情势下,会有哪些变化。例如:分析广告在互联网PC与手机时代的设计变化。
    评估读者对传播内容的影响

    探讨同一传播来源,面对不同的读者,是否会生产不同的内容。例如:分析《人民日报》大陆版和海外版有关国际贸易议题报导的差异;比较政治人物针对不同群众发表演讲的内容。
    分析传播内容变量间的关系

    分析同一传播来源中,不同内容的关联性。例如:分析某自媒体所发表的大量内容之间,是否有关联性;分析同一电视台的不同节目所呈现的价值观念,是否有关联性。
    比较传播者之间的差异

    比较不同的传播来源的内容,藉以推论传播者之间的差异。例如:比较精英与大众新闻媒体的社论立场,以探讨不同读者导向的新闻媒体之社论立场,是否有所不同。
    评估传播者的表现

    在采取某一特定的标准,来评估传播者的表现。例如:以警方的记录为标准,和报章对暴力案件的报道作比较,以评估新闻报道是否正确;以某国的民意代表在选举前的政见为标准,和当选后的质询内容或言论作一比较,借以评估民意代表的表现。[12]

    参考文献

    [1] Kerlinger, F.N. (1973). Foundations of behavioral research (2nd ed.). New York: Holt, Rinehart & Winston.
    [2] Krippendorff, K. (2013). Content analysis: An introduction to its methodology. Thousand Oaks, CA: SAGE.

    [3] 赵蓉英和邹菲(2005)。内容分析法学科基本理论问题探讨。图书情报工作,49(6),14-18。

    [4] Weber, R. P. (1990). Basic content analysis (2nd ed.). Newbury Park, CA: Sage, 9.

    [5] Berger, A. (1991). Media research techniques. Newbury Park, CA: Sage, 25.

    [6] Riffe, D., Lacy, S., & Fico, F.G. (2005). Analyzing Media Messages: Using Quantitative Content Analysis in Research (2nd ed.). Mahwah, New Jersey: Lawrence Erlbaum Associates, Publishers, 20.中文译本参见:丹尼尔・里夫,斯蒂文・赖斯,弗雷德里克・G.菲克,里夫,赖斯,菲克等(2010)。内容分析法:媒介信息量化研究技巧。清华大学出版社。

    [7] General Inquirer的主要用途包括:在文本内系统地找到属于被调查者详细说明的类目的那些单词和短语的实例;计算这些类目出现的次数,并详细说明共同出现的次数;打印表格和绘制图形;执行统计检验;根据它们是否包含特定类目或者类目组合的实例,对句子进行分类和重新分组。参见:Stone P., Dunphy, D., Smith, M., & Ogilvie, D. (1966). The general inquirer: a computer approach to content analysis. Cambridge: MIT Press.

    [8] Wiedemann, G. (2016). Text Mining for Qualitative Data Analysis in the Social Sciences: A Study on Democratic Discourse in Germany. Wiesbaden, Germany: Springer VS, 43.

    [9] 张荣显,曹文鸳(2016)。网络舆情研究新路径:大数据技术辅助网络内容挖掘与分析。汕头大学学报》(人文社会科学版),(8),111-121。

    [10] Neuman, W. (1997). Social research methods: qualitative and quantitative approaches. Needham, Heights, MA: Allyn & Bacon, 272-273.

    [11] Palmquist, M. (2013). Content analysis. Retrieved from https://www.ischool.utexas.edu/courses

    [12] 周翔。(2014),传播学内容分析研究与应用,重庆:重庆大学出版社。

    本篇文章为原创,转载请取得授权,并注意保持完整性及注明出处:
    张荣显,赵莹,曹文鸳(2019年8月)。如何结合机器与人工进行文本数据研究?微信公众号:文本数据挖掘与分析。


登录后回复
 

Copyright © 2019 Zhuhai Hengqin BoYi Data Technology Co. Ltd. 珠海横琴博易数据技术有限公司 版权所有 粵ICP备17160897号-2