如何利用Python和Jieba词库分析爬取的PDF文件,计算银行数字化转型指数?
- 内容介绍
- 文章标签
- 相关推荐
本文共计3062个文字,预计阅读时间需要13分钟。
一、需求及相关研究表明确,银行等企业的数字化转型相关特征信息更容易体现在年度报告中。尤其在具有总结性和指导性质量的年度报告中(如:吴非,2021)。
二、统计银行年报中数字化转型词频。
一、需求相关研究表明,银行等企业的数字化转型相关特征信息更容易体现在具有总结和指导性质的年度报表中(吴非,2021)。因此,通过统计银行年报中涉及“数字化转型”的词频来刻画其转型程度,具有可行性和科学性。具体而言,本文借助Python 爬虫功能对中国40家上市银行年度报表进行爬取,并采用Jieba分词模块对银行“数字化转型”相关的关键词进行分词与统计。使用Jieba的优势在于其能够精准地对中文文本进行识别与分词,同时支持用户自定义词典,可以有效提高分词的准确性。在词库方面,本文借鉴吴非(2021)的研究,将银行数字化转型细分为“底层技术”与“实践应用”两类,不仅包括了数字化转型的四种典型底层技术,即“ABCD”技术;同时也包含了这类技术在具体实践中的运用表现。此外,本文在已有研究的基础上对关键词词库进行有效补充。在此基础上,根据词库对上市银行年度报表进行匹配与词频汇总,同时剔除关键词前存在否定表达的词频后进行对数化得到银行业数字化转型指数。本文构建的与银行业数字化相关的关键词词库如图2所示:
二、过程 1、文件PDF转换需要用到的库:
pip install pdfminer
对pdfminer的简单介绍,官网翻译成中文的介绍如下:
PDFMiner是一个从PDF文档中提取信息的工具。与其他pdf相关的
工具不同,它完全专注于获取和分析文本数据。
本文共计3062个文字,预计阅读时间需要13分钟。
一、需求及相关研究表明确,银行等企业的数字化转型相关特征信息更容易体现在年度报告中。尤其在具有总结性和指导性质量的年度报告中(如:吴非,2021)。
二、统计银行年报中数字化转型词频。
一、需求相关研究表明,银行等企业的数字化转型相关特征信息更容易体现在具有总结和指导性质的年度报表中(吴非,2021)。因此,通过统计银行年报中涉及“数字化转型”的词频来刻画其转型程度,具有可行性和科学性。具体而言,本文借助Python 爬虫功能对中国40家上市银行年度报表进行爬取,并采用Jieba分词模块对银行“数字化转型”相关的关键词进行分词与统计。使用Jieba的优势在于其能够精准地对中文文本进行识别与分词,同时支持用户自定义词典,可以有效提高分词的准确性。在词库方面,本文借鉴吴非(2021)的研究,将银行数字化转型细分为“底层技术”与“实践应用”两类,不仅包括了数字化转型的四种典型底层技术,即“ABCD”技术;同时也包含了这类技术在具体实践中的运用表现。此外,本文在已有研究的基础上对关键词词库进行有效补充。在此基础上,根据词库对上市银行年度报表进行匹配与词频汇总,同时剔除关键词前存在否定表达的词频后进行对数化得到银行业数字化转型指数。本文构建的与银行业数字化相关的关键词词库如图2所示:
二、过程 1、文件PDF转换需要用到的库:
pip install pdfminer
对pdfminer的简单介绍,官网翻译成中文的介绍如下:
PDFMiner是一个从PDF文档中提取信息的工具。与其他pdf相关的
工具不同,它完全专注于获取和分析文本数据。

