现在时间是:
当前位置:首 页 >> 数据分析>> 文章列表

Python-docx Word文本处理

作者:   发布时间:2017-03-23 15:44:30   浏览次数:1325

也是最近才遇到要处理大批量DOC和DOCX文档分析词频的事情,于是补充点基本操作:

DOCX的读写可以一步到位:Python-docx

To search in a document with python-docx

# Import the module
from docx import *

# Open the .docx file
document = opendocx('A document.docx')

# Search returns true if found   
search(document,'your search string')

You also have a function to get the text of a document:

https://github.com/mikemaccana/python-docx/blob/master/docx.py#L910

# Import the module
from docx import *

# Open the .docx file
document = opendocx('A document.docx')
fullText=getdocumenttext(document)

Using https://github.com/mikemaccana/python-docx
 
经测试,这个库只能用来读取DOCX。


DOC间接读取:

from win32com import client as wc


word = wc.Dispatch('Word.Application')
 
doc = word.Documents.Open('c:/test1.doc')
 
doc.SaveAs('c:/test1.text', 4)
 
doc.Close()

strings=open('c:test1.text','r').read()

 

然后用结巴进行分词,提取目标数据结构,然后在进行词频分析,生成词云。

 







上一篇:没有了    下一篇:没有了

Copyright ©2018    易一网络科技|www.yeayee.com All Right Reserved.

技术支持:自助建站 | 领地网站建设 |短信接口 版权所有 © 2005-2018 lingw.net.粤ICP备16125321号 -5