当前位置:编程学习 > asp >>

.NET下读取PDF文本总结

在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSharp。
 
先说PDFBox,这个类库据说功能很强大,本人在这只是简单介绍一下:
 
1、下载PDFBox
 
 
 
2、引用动态链接库
 
解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有:
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间:
using org.pdfbox.pdmodel;
using org.pdfbox.util;
 
3、API的使用方法看代码:
 
[csharp]  
using org.pdfbox.pdmodel;  
using org.pdfbox.util;  
public void pdf2txt(FileInfo file,FileInfo txtfile)  
{  
        PDDocument doc = PDDocument.load(file.FullName);  
        PDFTextStripper pdfStripper = new PDFTextStripper();  
        string text = pdfStripper.getText(doc);  
        StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));  
        swPdfChange.Write(text);  
        swPdfChange.Close();  
}  
 
iTextSharp,其实很多时候都是用于生成PDF,但是他读取PDF的能力也不差,使用如下:
1、下载iTextSharp
 
 
 
2、引用动态链接库
 
解压缩下载的压缩包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在项目中添加引用itextsharp.dll即可
在文件中需要引入以下3个命名空间:
using iTextSharp;
using iTextSharp.text;
using iTextSharp.text.pdf;
 
3、API的使用方法看代码:
 
[csharp]  
private string OnCreated(string filepath)  
{  
    try  
    {  
        string pdffilename = filepath;  
        PdfReader pdfReader = new PdfReader(pdffilename);  
        int numberOfPages = pdfReader.NumberOfPages;  
        string text = string.Empty;  
  
        for (int i = 1; i <= numberOfPages; ++i)  
        {  
            byte[] bufferOfPageContent = pdfReader.GetPageContent(i);  
            text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);  
        }  www.zzzyk.com
        pdfReader.Close();  
  
        return text;  
    }  
    catch (Exception ex)  
    {  
        StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log");  
        wlog.WriteLine("出错文件:" + e.FullPath + "原因:" + ex.ToString());  
        wlog.Flush();  
        wlog.Close();return null;  
    }  
  
}  
 
 
补充:Web开发 , ASP.Net ,
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,