经常令我沮丧的一件事是无法轻松地从图像和某些PDF文件(例如,可能是从扫描文档创建的文件)中复制文本。 值得庆幸的是,随着时间的流逝,已经开发了解决此问题的软件解决方案,从而节省了大量时间,而这些时间本来可以用于手动复制和重新键入文本。 在今天的技巧中,我将讨论一个名为Capture2Text的免费软件工具,该工具使用光学字符识别(OCR)算法,该算法将允许您从图像和PDF文件中捕获文本。
安装与设定
首先,转到项目的SourceForge页面并下载最新版本的Capture2Text。 该软件以zip压缩文件的形式提供,当时不包含专用的安装程序。 下载完成后,解压缩存档并启动Capture2Text.exe文件。 这将启动软件,并在系统托盘中放一个图标:
首先,您要做的是设置软件的首选项,特别是用来开始和停止捕获的热键(或快捷方式):
就我而言,我选择使用“ Windows + q”键开始捕获,而使用“ Enter”键停止捕获。 您可以调整这些选项以使其最适合您。 请记住,“ Windows + s”键通常已经用于屏幕捕获(例如,通过Microsoft One Note之类的程序)。
在下一个选项卡上,可以配置OCR选项,包括输入语言(当前支持七种语言)以及是否使用OCR预处理以提高准确性(强烈建议)。 最后,在“输出”选项卡上,可以使用其他选项选择是将捕获的文本保存到剪贴板还是启动单独的弹出窗口。
使用软件
一旦安装并配置了软件,就可以通过开始捕获热键组合开始使用它。 使用鼠标在图像上选择包含要捕获的文本的区域。 要停止捕获,只需按您选择的热键即可停止捕获。 然后,文本将被复制到剪贴板,输出弹出窗口或同时复制到剪贴板。 可以在下面看到一个例子。
通过对带有图像的工具的快速测试,我发现它的准确性是不错的。 显然,这种工具和OCR通常都有局限性。 例如,大量修改的文本(草书,斜体或现代文本)可能效果不佳,有时甚至根本无法正常工作。 同样,在某些情况下,这将有助于略微调整捕获框的尺寸或与图像本身的缩放配合使用以获得更准确的结果。
从扫描的PDF文档捕获文本时,准确性尚可,通常仍需要对捕获的输出进行一些最终修改(取决于初始扫描的质量)。 另外,我注意到该软件可能需要花费几秒钟的时间来处理,尤其是在要求转换大量文本时。
总而言之,我认为该工具做得很好,尤其是因为它是免费提供的-我鼓励您尝试一下。
附录11/16/2015:
另一种选择是,对于拥有Google帐户的用户,还可以通过将文件上传到Google云端硬盘来使用Google的OCR功能(更多详细信息,请参见此处)。 此外,还有一个可供Google Chrome用户使用的OCR插件,称为Copyfish,您可能也想签出。