4.2 数据处理应用实例
Last updated
Was this helpful?
Last updated
Was this helpful?
Cooking time: 20 mins active / 30 mins passive
Tasks For Coaches: 教练讲解和演示该节内容,请教练灵活应变。
理解数据的几个层次:
形式理解:了解数据文件的格式
逻辑理解:理解数据的逻辑组织方式,哪个字段代表什么意思
统计理解:理解数据的分布,是否异常,是否可以解释等等,有些可以通过绘图直观的表达
常见的数据格式:
Excel 数据表格,文档结构复杂,需要用专门的库去解析。Pandas 集成了读写 Excel 文件的库。
CSV 源文件容易阅读的数据表格,首行是表头,从第二行起每行是一条记录。
JSON 如前述,可以用 Python 自带的 JSON 库去处理。
XML 类似于 HTML,但是标签需要严格闭合,也可以用 BeautifulSoup 处理。
示例:从免费词典资源提取一个简化版(只含单词和定义)的词典。
假设我们能下载到这么一个词典数据
下载:
它是一个 CSV 文件,用编辑器或者表格处理软件打开,观察文件的结构:
由第一行表头信息可知,单词(word)是第一列(对应下标 0),定义(definition)是第三列(对应下标 2)。
Python 内建了处理 CSV 的库函数,我们可以写一个循环去提取这两列:
然后把结果写进文件里:
思考:如果这是一个英语到中文的词典,而我们想要得到中文到英文的解释,可以怎么做?
延伸阅读:网上搜索"倒排索引",并尝试理解。
注:此示例参考了