Javascript读取文档和PDF

Javascript读取文档和PDF,javascript,jquery,html,Javascript,Jquery,Html,我试图从文档和pdf文件中提取文本,并将它们放在文本区域中 我的密码如下: <html> <head> <title>FileReader Example</title> <script src="http://code.jquery.com/jquery-1.9.1.min.js"></script> <script src="http://code.jque

我试图从文档和pdf文件中提取文本,并将它们放在文本区域中

我的密码如下:

<html>
    <head>
        <title>FileReader Example</title>

        <script src="http://code.jquery.com/jquery-1.9.1.min.js"></script>
        <script src="http://code.jquery.com/mobile/1.4.2/jquery.mobile-1.4.2.min.js"></script>
        <script src="http://ajax.googleapis.com/ajax/libs/jquery/1/jquery.min.js"></script>

        <script type="text/javascript" charset="utf-8">
            function upload(){
                document.getElementById("image_src").click();
            }

            $("document").ready(function () {
                $("#image_src").change(function () {
                    readBlob();
                });
            });

            function readBlob() {
                var files = document.getElementById('image_src').files;
                if (!files.length) {
                    alert('Please select a file!');
                    return;
                }

                var file = files[0];
                var start = 0;
                var stop = file.size - 1;
                var reader = new FileReader();

                // If we use onloadend, we need to check the readyState.
                reader.onloadend = function (evt) {
                    console.log(evt.target.result);
                    console.log(evt.target.data);
                    if (evt.target.readyState == FileReader.DONE) { // DONE == 2
                        document.getElementById('byte_content').textContent = evt.target.result;
                    }
                };

                var blob = file.slice(start, stop + 1);
                reader.readAsBinaryString(blob);
            }
        </script>

        <style>
            #image_src {
                position:absolute;
                left:-9999px;
            }
            #img {
                cursor:pointer;
            }
        </style>
    </head>
    <body>
        <div class="container">
            <img id="img" src="images/ChooseFile.png" onclick="upload()" alt="hellp"/>
            <input type="file" name="image_src" id="image_src" />
            <pre id="fileDisplayArea"><pre>
            <div id="byte_content"></div>
        </div>
    </body>
</html>

文件阅读器示例
函数上传(){
document.getElementById(“image_src”)。单击();
}
$(“文档”).ready(函数(){
$(“#image_src”).change(函数(){
readBlob();
});
});
函数readBlob(){
var files=document.getElementById('image_src').files;
如果(!files.length){
警报('请选择一个文件!');
返回;
}
var file=files[0];
var start=0;
var stop=file.size-1;
var reader=new FileReader();
//如果我们使用onloadend,我们需要检查readyState。
reader.onloadend=函数(evt){
日志(evt.target.result);
日志(evt.target.data);
如果(evt.target.readyState==FileReader.DONE){//DONE==2
document.getElementById('byte_content')。textContent=evt.target.result;
}
};
var blob=file.slice(开始、停止+1);
reader.readAsBinaryString(blob);
}
#图像_src{
位置:绝对位置;
左:-9999px;
}
#img{
光标:指针;
}

唯一的问题是,我有文本被显示为垃圾,但如果我上传一个文本文件,它的工作。出什么问题了?

PDF是一种二进制格式,它可能包含注释、表单字段、视频和Flash动画等交互元素

若你们需要使用PDF文档,我建议你们看看这个项目

我找到了一些API文档,可能有助于您入门:


编写Word文档到HTML转换器和PDF到HTML转换器。您知道
.PDF
是二进制格式,对吗?pdf文件中的文本不会保存为长字符串。是的,我知道pdf是二进制格式。这就是我想知道的,如何将它们转换为仅限stringLink的答案。你应该发一条评论。