一个付费答疑的会员,咨询我如何将word文档中的文本用Python抽取。
在一个星期前问我,因为本人没有处理过这个问题,搜到一些解决方案给他。
1、python-docx
2、windows下的win32com
python-docx 只能处理docx的文件,他的word文件是doc格式。
win32com,他没有搞定,我没有windows,也没有打算用这个库。
本来答疑没有帮助写代码的服务,但他搞一个星期没有搞定,黄哥基于职业道德,
来帮助他搞定这个事。
归功于google 和独立思考,既然现有的库只支持docx文档,那么我就思考,linux下有不有工具软件
处理这个事情,搜索一下,还真找到了这个[antiword](http://www.winfield.demon.nl)
在mac下brew install antiword
安装后再在终端antiword 出院记录.doc 文件,文本输出了,到这里就有谱了。
#!/usr/bin/env python
# coding:utf-8
'''黄哥Python'''
import subprocess
word = "出院记录.doc"
output = subprocess.check_output(["antiword", word])
print output
程序员要养成独立解决问题的习惯,快速利用google解决问题的能力。
