:::
LibreOffice討論區

關於PDF轉ODT和ODS的狀況請教

discuss pic 2017-12-03 01:06:07
雖然有自覺問到符合需求的解決方案「機會渺茫」,但是發一篇文總是有問有機會吧?

我正在嘗試編輯彙整一份文件資料,操作環境為 MacOSX + LO 5.4.3.2 ,裝有16GB主記憶體的筆電。「我的需求」是「全圖形介面的操作過程」。
我在中華民國教育部官網下載了:
polyphone10112_1020207updatemail/國語一字多音審訂表(初稿)101年12月12日公告.pdf
包含有一百多頁的文字和表格內容,大小約4.3MB。文件之中有一個章節是“一字多音審訂表”「表格」,約有一千兩百多列,佔了大約幾十頁左右吧?
另外同樣在中華民國教育部官網下載了:
教育部4808個常用字下載.ods
------
花蓮縣教育處
一字多音審訂表.xls
102/9/30
1513KB
花蓮縣教育處的這份檔案的內容,有「嚴重的資料瑕疵」存在,所以我「不採用」。
------
接下來我需要把“一字多音審訂表”「表格」內的注音符號對應並複製到教育部4808個常用字下載.ods裡頭的常用字隔壁的新的空欄位。
在查閱資料的過程中,我發現“一字多音審訂表”的注音符號“ㄧ”是“豎”的,所以我必須先透過純文字編輯器將之改成“橫”的,再複製到教育部4808個常用字下載.ods裡頭。然後我又發現“一字多音審訂表”的“輕聲符號”背後的unicode碼位是“用於組合的點”,所以我還是得透過純文字編輯器將之改成“非”“用於組合的點”,再複製到教育部4808個常用字下載.ods裡頭。
然後我又發現,網路上現成既有的大字集注音輸入法表格,可能會有跟“國語一字多音審訂表”“資料不同步”的狀況。
就這樣我發現我必須土法煉鋼的“手動處理”4808個常用字,每處理一個字,都要確認過一次,因為「有可能」會發現新的「原始資料瑕疵」。
可是當我處理完一百個常用字之後,就開始有疲勞感了,要處理完4808個常用字會覺得非常遙遠。
接下來我想到把PDF裡頭其中章節那連續幾十頁的“一字多音審訂表”「表格」全選複製,然後直接貼到LO CALC裡頭,貼出來的結果只有一欄,一欄裡頭擠滿了原本一列五欄的內容,處理起來更複雜。
若把LO直接開啟PDF,會被辨識成用DRAW開啟,開啟之後的效果慘不忍睹,而且只要更動其中一個字元,就會遭遇滑鼠游標彩球狂轉,不曉得何時才會結束。
「無法符合」到我期望的原本的PDF裡的表格的「相對位置」是什麼,LO CALC格子裡頭的相對位置就是什麼。
接下來我又想到把PDF轉ODT,google關鍵字找到的都是網路線上轉檔服務,我試了兩個網站,轉出來的呈現效果「都很差」,難以做繼續編輯的動作,我就不想再試第三個了。
因此我在想,在「不使用」Adobe Acrobat Pro、MsOffice的前提下,除了土法煉鋼的一筆一筆的資料處理之外,還可以怎麼樣「相對有效率」的把PDF裡頭的表格給整個複製出來,經過處理流程,最終輸入或匯入到LO CALC,成為4808個常用字的對照注音資料?

發表過的網路文字作品;
https://sites.google.com/site/ianho7979/home
discuss pic 2017-12-05 18:36:26
我還是很雞婆的打電話給教育部,反應教育部官網公告的國語一字多音審訂表PDF的文件編輯有嚴重的“unicode碼位瑕疵”,他們之後會真的就去著手修正並重新上傳文件嗎?還是不了了之?就天知道了~~~
發表過的網路文字作品;
https://sites.google.com/site/ianho7979/home