『壹』 怎樣從doc格式文件中提取插圖
每台電腦都配有Word文字處理系統,它是日常寫作的必備工具。
本人根據工作需要,經常把圖片插入文字稿一起保存為doc格式文件(這在新聞稿件和資料稿件中特別好用)使圖文並茂。平時還將一些有價值的照片加上說明文字一起作資料保存,這樣的文件不但同時有文字資料和圖片資料,還比單純保存圖片節省不少空間。可是經常遇到老編打來電話:「你的稿子我們認為很好,可是裡面的圖片我們取不出來,你另外把圖片發過來吧!」遇上個別有興趣的還問我怎樣才能提取文中的照片(新聞圖片),我不得不多次反復說說這個辦法,乾脆,在這里我把過程寫出來,大家共享。
步驟:(一)復制過程
1.打開Word文件
2.從文件中找出要提取的插圖,用左鍵點擊圖片(會出現定義框)
3.然後右鍵點擊圖片,再點擊"復制",復制過程完成
(二)粘貼過程
1.從電腦中隨便打開一張JPG圖片
2.通過右上角(ACDSee編輯頁面)"編輯"--"粘貼"(此時編輯頁面出現剪貼的bmp圖像,征詢你是否保存)
『貳』 怎樣把WORD裡面的圖片轉換成為TXT文件或者WORD文件
圖片格式(.bmp)存入電腦。然後使用ORC識別系統進行轉換,最終用WORD進行修改編輯。下面教你如何使用ORC:
OCR是英文Optical Character Recognition的縮寫,翻譯成中文就是通過光學技術對文字進行識別的意思, 是自動識別技術研究和應用領域中的一個重要方面。它是一種能夠將文字自動識別錄入到電腦中的軟體技術,是與掃描儀配套的主要軟體,屬於非鍵盤輸入范疇,需要圖像輸入設備主要是掃描儀相配合。現在OCR主要是指文字識別軟體,在1996年清華紫光開始搭配中文識別軟體之前,市場上的掃描儀和OCR軟體一直是分開銷售的,專業的OCR軟體讜縲┦焙蚵艫帽壬�枰腔掛�蟆K孀派�枰欠直媛實奶嶸�琌CR軟體也在不斷升級,掃描儀廠商現在已把專業的OCR軟體搭配自己生產的掃描儀出售。OCR技術的迅速發展與掃描儀的廣泛使用是密不可分的,近兩年隨著掃描儀逐漸普及和OCR技術的日臻完善,OCR己成為絕大多數掃描儀用戶的得力助手。
一、OCR技術的發展歷程
自20世紀60年代初期出現第一代OCR產品開始,經過30多年的不斷發展改進,包括手寫體的各種OCR技術的研究取得了令人矚目的成果,人們對OCR產品的功能要求也從原來的單純注重識別率,發展到對整個OCR系統的識別速度、用戶界面的友好性、操作的簡便性、產品的穩定性、適應性、可靠性和易升級性、售前售後服務質量等各方面提出更高的要求。
IBM公司最早開發了OCR產品,1965年在紐約世界博覽會上展出了IBM公司的OCR產品——IBMl287。當時的這款產品只能識別印刷體的數字、英文字母及部分符號,並且必須是指定的字體。20世紀60年代末,日立公司和富士通公司也分別研製出各自的OCR產品。全世界第一個實現手寫體郵政編碼識別的信函自動分揀系統是由日本東芝公司研製的,兩年後NEC公司也推出了同樣的系統。到了1974年,信函的自動分揀率達到92%左右,並且廣泛地應用在郵政系統中,發揮著較好的作用。1983年日本東芝公司發布了其識別印刷體日文漢字的OCR系統OCRV595,其識別速度為每秒70~100個漢字,識別率為99.5%。其後東芝公司又開始了手寫體日文漢字識別的研究工作。
中國在OCR技術方面的研究工作相對起步較晚,在20世紀70年代才開始對數字、英文字母及符號的識別技術進行研究,20世紀70年代末開始進行漢字識別的研究。1986年,國家863計劃信息領域課題組織了清華大學、北京信息工程學院、沈陽自動化所三家單位聯合進行中文OCR軟體的開發工作。至1989年,清華大學率先推出了國內第一套中文OCR軟體--清華文通TH-OCR1.0版,至此中文OCR正式從實驗室走向了市場。清華OCR印刷體漢字識別軟體其後又推出了TH-OCR 92高性能實用簡/繁體、多字體、多功能印刷漢字識別系統,使印刷體漢字識別技術又取得重大進展。到1994年推出的TH-OCR 94高性能漢英混排印刷文本識別系統,則被專家鑒定為「是國內外首次推出的漢英混排印刷文本識別系統,總體上居國際領先水平」。上個世紀90年代中後期,清華大學電子工程系提出並進行了漢字識別綜合研究,使漢字識別技術在印刷體文本、聯機手寫漢字識別、離線手寫漢字識別和離線手寫數字元號識別等領域全面地取得了重要成果。具有代表性的成果是TH-OCR 97綜合集成漢字識別系統,它可以完成多文種(漢、英、日)印刷文本、聯機手寫漢字、離線手寫漢字和手寫數字的識別輸入。幾年來,除清華文通TH-OCR外,其它如尚書SH-OCR等各具風格的OCR軟體也相繼問世,中文OCR市場穩步擴大,用戶遍布世界各地。
可以說目前印刷體OCR的識別技術已經達到較高水平。OCR產品已由早期的只能識別指定的印刷體數字、英文字母和部分符號,發展成為可以自動進行版面分析、表格識別,實現混合文字、多字體、多字型大小、橫豎混排識別的強大的計算機信息快速錄入工具。對印刷體漢字的識別率達到98%以上,即使對印刷質量較差的文字其識別率也達到95%以上。可識別宋體、黑體、楷體、仿宋體等多種字體的簡、繁體,並且可以對多種字體、不同字型大小混合排版進行識別,對手寫體漢字的識別率達到70%以上。特別是我國的漢字OCR技術經過十幾年的努力,克服了起步晚、漢字字元集異常龐大等困難,單字的識別速度(指在單位時間內所完成的從特徵提取到識別結果輸出的字數)可以達到70字/秒以上。由於印刷體OCR漢字識別技術已經比較成熟,所以OCR產品被廣泛地應用在新聞、印刷、出版、圖書館、辦公自動化等各個行業。
專業型OCR產品多是面向特定的行業,即適用於每天需處理大量表格信息錄入的部門,如郵政、稅務、海關、統計等等。這種面向特定行業的專業型OCR系統,格式較為固定,識別的字元集相對較小,經常與專用的輸入設備結合使用,因此具有速度快、效率高等特點,比如郵件自動分揀系統等。
手寫文稿的識別直到1996、1997年才開始有產品問世,而且是作為印刷文稿識別產品的一項附加功能提供的。由於人寫字的習慣千差萬別,實現自由手寫體識別相當困難,所以手寫體OCR技術的使用領域是聯機手寫體識別,即人一邊寫,計算機一邊識別,是一種實時識別方式。
二、OCR的基本原理
簡單地說,OCR的基本原理就是通過掃描儀將一份文稿的圖像輸入給計算機,然後由計算機取出每個文字的圖像,並將其轉換成漢字的編碼。其具體工作過程是,掃描儀將漢字文稿通過電荷耦合器件CCD將文稿的光信號轉換為電信號,經過模擬/數字轉換器轉化為數字信號傳輸給計算機。計算機接受的是文稿的數字圖像,其圖像上的漢字可能是印刷漢字,也可能是手寫漢字,然後對這些圖像中的漢字進行識別。對於印刷體字元,首先採用光學的方式將文檔資料轉換成原始黑白點陣的圖像文件,再通過識別軟體將圖像中的文字轉換成文本格式,以便文字處理軟體的進一步加工。其中文字識別是OCR的重要技術。
1.OCR識別的兩種方式
與其它信息數據一樣,在計算機中所有掃描儀捕捉到的圖文信息都是用0、1這兩個數字來記錄和進行識別的,所有信息都只是以0、1保存的一串串點或樣本點。OCR識別程序識別頁面上的字元信息,主要通過單元模式匹配法和特徵提取法兩種方式進行字元識別。
單元模式匹配識別法(Pattern Matching)是將每一個字元與保存有標准字體和字型大小點陣圖的文件進行不嚴格的比較。如果應用程序中有一個已保存字元的大資料庫,則應用程序會選取合適的字元進行正確的匹配。軟體必須使用一些處理技術,找出最相似的匹配,通常是不斷試驗同一個字元的不同版本來比較。有些軟體可以掃描一頁文本,並鑒別出定義新字體的每一個字元。有些軟體則使用自己的識別技術,盡其所能鑒別頁面上的字元,然後將不可識別的字元進行人工選擇或直接錄入。
特徵提取識別法(Feature Extraction)是將每個字元分解為很多個不同的字元特徵,包括斜線、水平線和曲線等。然後,又將這些特徵與理解(識別)的字元進行匹配。舉個簡單的例子,應用程序識別到兩條水平橫線,它就會「認為」該字元可能是「二」。特徵提取法的優點是可以識別多種字體,例如中文書法體就是採用特徵提取法實現字元識別的。
多數OCR應用軟體都加入了語法智能檢查功能,這種功能進一步提高了識別率。它主要通過上下文檢查法實現拼寫和語法的糾正,在文字識別時,OCR應用程序會做多次的上下文銜接性檢查,根據程序中已經存在的片語、固定的用詞順序,對應的檢查字元串的用詞字。比較高級的應用軟體會自動用它「認為」正確的詞語替換錯誤詞語,糾正語句意思。
2.文字識別的幾個步驟
文字識別包括以下幾個步驟:圖文輸入、預處理、單字識別和後處理等。
(1)圖文輸入
是指通過輸入設備將文檔輸入到計算機中,也就是實現原稿的數字化。現在用得比較普遍的設備是掃描儀。文檔圖像的掃描質量是OCR軟體正確識別的前提條件。恰當地選擇掃描解析度及相關參數,是保證文字清楚、特徵不丟失的關鍵。此外,文檔盡可能地放置端正,以保證預處理檢測的傾斜角小,在進行傾斜校正後,文字圖像的變形就小。這些簡單的操作,會使系統的識別正確率有所提高。反之,由於掃描設置不當,文字的斷筆過多可能會分檢出半個文字的圖像。文字斷筆和筆畫粘連會造成有些特徵丟失,在將其特徵與特徵庫比較時,會使其特徵距離加大,識別錯誤率上升。
(2)預處理
掃描一幅簡單的印刷文檔的圖像,將每一個文字圖像分檢出來交給識別模塊識別,這一過程稱為圖像預處理。預處理是指在進行文字識別之前的一些准備工作,包括圖像凈化處理,去掉原始圖像中的顯見雜訊(干擾)。主要任務是測量文檔放置的傾斜角,對文檔進行版面分析,對選出的文字域進行排版確認,對橫、豎排版的文字行進行切分,每一行的文字圖像的分離,標點符號的判別等。這一階段的工作非常重要,處理的效果直接影響到文字識別的准確率。
版面分析是對文本圖像的總體分析,是將文檔中的所有文字塊分檢出來,區分出文本段落及排版順序,以及圖像、表格的區域。將各文字塊的域界(域在圖像中的始點、終點坐標),域內的屬性(橫、豎排版方式)以及各文字塊的連接關系作為一種數據結構,提供給識別模塊自動識別。對於文本區域直接進行識別處理,對於表格區域進行專用的表格分析及識別處理,對於圖像區域進行壓縮或簡單存儲。行字切分是將大幅的圖像先切割為行,再從圖像行中分離出單個字元的過程。
(3)單字識別
單字識別是體現OCR文字識別的核心技術。從掃描文本中分檢出的文字圖像,由計算機將其圖形、圖像轉變成文字的標准代碼,是讓計算機「認字」的關鍵,也就是所謂的識別技術。就像人腦認識文字是因為在人腦中已經保存了文字的各種特徵,如文字的結構、文字的筆畫等。要想讓計算機來識別文字,也需要先將文字的特徵等信息儲存到計算機里,但要儲存什麼樣的信息及怎樣來獲取這些信息是一個很復雜的過程,而且要達到非常高的識別率才能符合要求。通常採用的做法是根據文字的筆畫、特徵點、投影信息、點的區域分布等進行分析。
中國漢字常用的就有幾千,識別技術就是特徵比較技術,通過和識別特徵庫的比較,找到特徵最相似的字,提取該文字的標准代碼,即為識別結果。比較是人們認識事物的一種基本方法,漢字識別也是通過比較找出漢字之間的相同、相似、相異,把握其量和質的關系,以及時間與空間的關系等。對於大字元集的漢字一般採用多級分類,多特徵、全方位動態匹配求相似集,以保證分類率高、適應性強、穩定性好;細分類重點在於對相似集求異匹配、加權處理、結構判別,定量、定性分析,以及前後聯接詞的關系,最後進行判別。漢字識別實質上是比較科學或認知科學在人工智慧方面的應用,其關鍵技術是識別特徵庫。計算機有了這樣的一個特徵庫,才能完成認字的功能。
在圖像文檔的版面中,除了有文字、圖片,有時還會有表格存在,為了使識別後的表格數字化,需要在版面分析過程中,對表格域進行特殊的處理,它包括對表格線的結構信息的提取,對表格內文字域的分檢,完成對表格線和對文字域的識別,並根據表格線的數字化生成不同的文件格式。由於文檔中的表格隨意性大,格式多樣,有封閉式的,也有開放式的,特別是表格中的斜線,給表格分析造成一定的困難。
(4)後處理
後處理是指對識別出的文字或多個識別結果採用片語方式進行上下匹配,即將單字識別的結果進行分詞,與詞庫中的片語進行比較,以提高系統的識別率,減少誤識率。
漢字字元識別是文字識別領域最為困難的問題,它涉及模式識別、圖像處理、數字信號處理、自然語言理解、人工智慧、模糊數學、資訊理論、計算機、中文信息處理等學科,是一門綜合性技術。近幾年來,印刷漢字識別系統的單字識別正確率已經超過95%,為了進一步提高系統的總體識別率,掃描圖像、圖像的預處理以及識別後處理等方面的技術也都得到了深入的研究,並取得了長足的進展,有效地提高了印刷漢字識別系統的總體性能。清華大學在此方面的研究成果突出,已經成為世界上的最具權威的機構之一。目前,清華紫光的全系列掃描儀中都配裝了清華OCR千禧版軟體,它在識別率、表格識別甚至規范手寫體的識別方面,均達到了較高水平。
三、OCR文字識別技巧
在最近幾年中,OCR識別技術隨著掃描儀的普及得到了飛速的發展,掃描、識別軟體的性能不斷強大並向智能化不斷升級發展。但是要想快速地獲取正確的掃描結果,得到高效率的文字錄入,必須認真學習有關知識,結合實踐經驗,摸索出自己的全套解決方案。有時我們在作文字識別工作時識別率非常低,根本達不到軟體所說的95%以上,請先不要責怪硬體或軟體,其實這是沒有掌握好掃描及OCR識別技巧的原因。
下面是文字識別操作中經常用到了一些方法和技巧。
1.解析度的設置是文字識別的重要前提。一般來講,掃描儀提供較多的圖像信息,識別軟體比較容易得出識別結果。但也不是掃描解析度設得越高識別正確率就越高。選擇300dpi或400dpi解析度,適合大部分文檔掃描。注意文字原稿的掃描識別,設置掃描解析度時千萬不要超過掃描儀的光學解析度,不然會得不償失。下面是部分典型設置,僅供參考。
(1)1、2、3號字的文章段,推薦使用200dpi。
(2)4、小4、5號字的文章段,推薦使用300dpl
(3)小5、6號字的文章段,推薦使用400dpl
(4)7、8號字的文章段,推薦使用600dpi。
2. 掃描時適當地調整好亮度和對比度值,使掃描文件黑白分明。這對識別率的影響最為關鍵,掃描亮度和對比度值的設定以觀察掃描後的圖像中漢字的筆畫較細但又不斷開為原則。進行識別前,先看看掃描得到的圖像中文字質量如何,如果圖像存在黑點或黑斑時或文字線條很粗很黑,分不清筆畫時,說明亮度值太小了,應該增加亮度值在試試;如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴重殘缺時,說明亮度值太大了,應減小亮度後再試試。
3.選好掃描軟體。選一款好的適合自己的OCR軟體是作好文字識別工作的基礎,一般不要使用掃描儀自帶的OEM軟體,OEM的OCR軟體的功能少、效果差,有的甚至沒有中文識別,經過比較,我認為清華紫光OCR2003專業版和尚書OCR6.0文本自動識別輸入系統的識別能力與使用功能更突出一些。再選一個圖像軟體,OCR軟體不是有掃描介面嗎?為什麼還找圖像軟體?第一,OCR軟體不能識別所有的掃描儀;第二,也是最關鍵的,利用圖像軟體的掃描介面掃描出來的圖像便於處理;一般選用PHOTOSHOP。
4.如果要進行的文本是帶有格式的,如粗體、斜體、首行縮進等,部分OCR軟體識別不出來,會丟失格式或出現亂碼。如果必須掃描帶有格式的文本,事先要確保使用的識別軟體是否支持文字格式的掃描。也可以關閉樣式識別系統,使軟體集中注意力查找正確的字元,不再顧及字體和字體格式。
中國OCR信息網 http://www.chinaocr.net/
『叄』 上傳稿件後行成的pdf圖片位置變了怎麼辦
在選擇文件,另存為。
選擇瀏覽,選擇保存的文件夾。
保存類型為PDF。
選擇「選項」
勾選「符合PDF/A」
點擊確定,再點擊保存就可以了,導出的PDF文件和編輯好的word文件格式一樣。