谷歌文档PDF查看器是如何工作的?

谷歌文档PDF查看器是如何工作的?,pdf,google-docs,Pdf,Google Docs,我很想知道谷歌文档PDF查看器是如何工作的?它不像scribd.com那样是闪光灯;它看起来像纯HTML。知道他们是怎么做到的吗 谷歌只是提供了一个图像(右键单击->另存为),带有一个覆盖以突出显示文本 你应该看看其他人在哪里做得更详细 你也应该看看你的PDF链接的来源,它会显示谷歌正在通过PDF链接转换成图像 例如: <script type="text/javascript"> var gviewElement = document.getElementById

我很想知道谷歌文档PDF查看器是如何工作的?它不像scribd.com那样是闪光灯;它看起来像纯HTML。知道他们是怎么做到的吗


谷歌只是提供了一个图像(右键单击->另存为),带有一个覆盖以突出显示文本

你应该看看其他人在哪里做得更详细

你也应该看看你的PDF链接的来源,它会显示谷歌正在通过PDF链接转换成图像

例如:

<script type="text/javascript"> 
        var gviewElement = document.getElementById('gview');
        var config = {

          'api': false,
          'chrome': true,
          'csi': true,
          'ddUrl': "http://www.idfcmf.com/downloads/monthly_fund/2009/IDFC-Premier-Equityfund-jan10.pdf",
          'element': gviewElement,
          'embedded': false,
          'initialQuery': "",
          'oivUrl': "http://docs.google.com/viewer?url\x3dhttp%3A%2F%2Fwww.idfcmf.com%2Fdownloads%2Fmonthly_fund%2F2009%2FIDFC-Premier-Equityfund-jan10.pdf",
          'sdm': 200,
          'userAuthenticated': true
        };

        var gviewApp = _createGView(config);
        gviewApp.setProgress(50);


          window.jstiming.load.name = 'view';

          window.jstiming.load.tick('_dt');

      </script> 

var gviewelment=document.getElementById('gview');
变量配置={
“api”:错误,
“chrome”:没错,
《犯罪现场调查》:没错,
“ddUrl”:”http://www.idfcmf.com/downloads/monthly_fund/2009/IDFC-Premier-Equityfund-jan10.pdf",
“元素”:gviewElement,
“嵌入”:错误,
“initialQuery”:“”,
“oivUrl”:”http://docs.google.com/viewer?url\x3dhttp%3A%2F%2Fwww.idfcmf.com%2Fdownloads%2Fmonthly_fund%2F2009%2FIDFC-Premier-Equityfund-jan10.pdf“,
"可持续发展目标":200,
“userAuthenticated”:true
};
var gviewApp=_createGView(配置);
gviewApp.setProgress(50);
window.jstiming.load.name='view';
window.jstiming.load.tick(“u dt”);
编辑


另外,如果你在Firefox中使用Firebug查看PDF查看器,你会注意到,当你“突出显示”文本时,它实际上只启用了一个div加载,我猜Google会使用OCR扫描文档,检测文本的位置,并提供一个坐标矩阵,以此作为div放置的基础,当你点击并拖动它时,它会进入鼠标指针的位置,以确定要显示的div。

整个过程就是一个图像。文本突出显示覆盖-这很容易理解。但当你按下ctrl+c键,它就会复制到剪贴板上,这部分内容让我完全不知所措。因为在firefox中无法使用javascript写入剪贴板,但在firefox中,图像上的ctrl+c可以正常工作

我同意其他一些答案-PDF呈现为PNG格式,很可能文本区域是分层的,可能使用绝对/相对定位。您可以从PDF中提取PDF信息(当然…)。PDF格式是开放的——任何人都可以做到(当然,这可能并不容易)。然而,有一些开源工具(xPDF…)支持导出PDF内容,比如XML。导出可能包括诸如坐标之类的信息,如文本和图像在页面上的显示位置。

No。。它不是将整个事物转换成图像。因为,它允许您选择并复制其中的文本。我不认为我们可以在图像中这样做..不。。。它正在把它转换成一个图像…你可以告诉我,因为我下载了一个PNG!我无法解释它是如何为突出显示/复制文本提供覆盖的,但它正在将其转换为图像。你看过我链接到的另一篇文章了吗?如果你想证明它正在将其转换为图像,请检查此链接-->兄弟。。我不否认它呈现了一些图像。。但是,总的来说,它的呈现方式类似于html页面以及图像和文本。我的问题是PDF查看器是如何工作的?(准确信息的完整流程)。。没有猜测答案。就我而言,我已经尽我所能回答了你的问题,没有打电话给谷歌直接获取信息。你能具体说明你想知道什么吗?我告诉过你PDF本身是如何呈现为图像的,我告诉过你文本高亮显示是如何工作的?我不知道你想要什么,我没有解释。除了文本坐标(我很确定),我什么也没猜到,用firebug自己看吧。有很多。。。。还有很多。。。。还有很多。。。当然,在我的帖子底部阅读我答案中的“编辑”部分。正如@Beneverad在下文中所述,PDF被呈现为一个图像,其中每个页面都是单独的图像,图像上没有文本,但它们会用半透明的div突出显示图像页面上的文本块。副本如何工作是另一个问题。我假设他们不是使用javascript将文本放入剪贴簿,而是使用浏览器中的可选文本。当你点击Ctrl+C时,你实际上是在使用浏览器的普通复制功能。