谷歌文档PDF查看器是如何工作的？_Pdf_Google Docs

谷歌文档PDF查看器是如何工作的？

pdf

谷歌文档PDF查看器是如何工作的？,pdf,google-docs,Pdf,Google Docs,我很想知道谷歌文档PDF查看器是如何工作的？它不像scribd.com那样是闪光灯；它看起来像纯HTML。知道他们是怎么做到的吗谷歌只是提供了一个图像（右键单击->另存为），带有一个覆盖以突出显示文本你应该看看其他人在哪里做得更详细你也应该看看你的PDF链接的来源，它会显示谷歌正在通过PDF链接转换成图像例如： <script type="text/javascript"> var gviewElement = document.getElementById

我很想知道谷歌文档PDF查看器是如何工作的？它不像scribd.com那样是闪光灯；它看起来像纯HTML。知道他们是怎么做到的吗

谷歌只是提供了一个图像（右键单击->另存为），带有一个覆盖以突出显示文本

你应该看看其他人在哪里做得更详细

你也应该看看你的PDF链接的来源，它会显示谷歌正在通过PDF链接转换成图像

例如：

<script type="text/javascript"> 
        var gviewElement = document.getElementById('gview');
        var config = {

          'api': false,
          'chrome': true,
          'csi': true,
          'ddUrl': "http://www.idfcmf.com/downloads/monthly_fund/2009/IDFC-Premier-Equityfund-jan10.pdf",
          'element': gviewElement,
          'embedded': false,
          'initialQuery': "",
          'oivUrl': "http://docs.google.com/viewer?url\x3dhttp%3A%2F%2Fwww.idfcmf.com%2Fdownloads%2Fmonthly_fund%2F2009%2FIDFC-Premier-Equityfund-jan10.pdf",
          'sdm': 200,
          'userAuthenticated': true
        };

        var gviewApp = _createGView(config);
        gviewApp.setProgress(50);


          window.jstiming.load.name = 'view';

          window.jstiming.load.tick('_dt');

      </script>


var gviewelment=document.getElementById（'gview'）；
变量配置={
“api”：错误，
“chrome”：没错，
《犯罪现场调查》：没错，
“ddUrl”：”http://www.idfcmf.com/downloads/monthly_fund/2009/IDFC-Premier-Equityfund-jan10.pdf",
“元素”：gviewElement，
“嵌入”：错误，
“initialQuery”：“”，
“oivUrl”：”http://docs.google.com/viewer?url\x3dhttp%3A%2F%2Fwww.idfcmf.com%2Fdownloads%2Fmonthly_fund%2F2009%2FIDFC-Premier-Equityfund-jan10.pdf“，
"可持续发展目标":200，
“userAuthenticated”：true
};
var gviewApp=_createGView（配置）；
gviewApp.setProgress（50）；
window.jstiming.load.name='view'；
window.jstiming.load.tick（“u dt”）；

编辑

另外，如果你在Firefox中使用Firebug查看PDF查看器，你会注意到，当你“突出显示”文本时，它实际上只启用了一个div加载，我猜Google会使用OCR扫描文档，检测文本的位置，并提供一个坐标矩阵，以此作为div放置的基础，当你点击并拖动它时，它会进入鼠标指针的位置，以确定要显示的div。

整个过程就是一个图像。文本突出显示覆盖-这很容易理解。但当你按下ctrl+c键，它就会复制到剪贴板上，这部分内容让我完全不知所措。因为在firefox中无法使用javascript写入剪贴板，但在firefox中，图像上的ctrl+c可以正常工作

我同意其他一些答案-PDF呈现为PNG格式，很可能文本区域是分层的，可能使用绝对/相对定位。您可以从PDF中提取PDF信息（当然…）。PDF格式是开放的——任何人都可以做到（当然，这可能并不容易）。然而，有一些开源工具（xPDF…）支持导出PDF内容，比如XML。导出可能包括诸如坐标之类的信息，如文本和图像在页面上的显示位置。

No。。它不是将整个事物转换成图像。因为，它允许您选择并复制其中的文本。我不认为我们可以在图像中这样做..不。。。它正在把它转换成一个图像…你可以告诉我，因为我下载了一个PNG！我无法解释它是如何为突出显示/复制文本提供覆盖的，但它正在将其转换为图像。你看过我链接到的另一篇文章了吗？如果你想证明它正在将其转换为图像，请检查此链接-->兄弟。。我不否认它呈现了一些图像。。但是，总的来说，它的呈现方式类似于html页面以及图像和文本。我的问题是PDF查看器是如何工作的？（准确信息的完整流程）。。没有猜测答案。就我而言，我已经尽我所能回答了你的问题，没有打电话给谷歌直接获取信息。你能具体说明你想知道什么吗？我告诉过你PDF本身是如何呈现为图像的，我告诉过你文本高亮显示是如何工作的？我不知道你想要什么，我没有解释。除了文本坐标（我很确定），我什么也没猜到，用firebug自己看吧。有很多。。。。还有很多。。。。还有很多。。。当然，在我的帖子底部阅读我答案中的“编辑”部分。正如@Beneverad在下文中所述，PDF被呈现为一个图像，其中每个页面都是单独的图像，图像上没有文本，但它们会用半透明的div突出显示图像页面上的文本块。副本如何工作是另一个问题。我假设他们不是使用javascript将文本放入剪贴簿，而是使用浏览器中的可选文本。当你点击Ctrl+C时，你实际上是在使用浏览器的普通复制功能。