:::
LibreOffice討論區

關於PDF轉ODT和ODS的狀況請教

discuss pic 2017-12-03 01:06:07
雖然有自覺問到符合需求的解決方案「機會渺茫」,但是發一篇文總是有問有機會吧?

我正在嘗試編輯彙整一份文件資料,操作環境為 MacOSX + LO 5.4.3.2 ,裝有 16GB 主記憶體的筆電。「我的需求」是「全圖形介面的操作過程」。
我在中華民國教育部官網下載了:
polyphone10112_1020207updatemail/國語一字多音審訂表(初稿)101 年 12 月 12 日公告.pdf
包含有一百多頁的文字和表格內容,大小約 4.3MB 。文件之中有一個章節是“一字多音審訂表”「表格」,約有一千兩百多列,佔了大約幾十頁左右吧?
另外同樣在中華民國教育部官網下載了:
教育部 4808 個常用字下載.ods
------
花蓮縣教育處
一字多音審訂表.xls
102/9/30
1513KB
花蓮縣教育處的這份檔案的內容,有「嚴重的資料瑕疵」存在,所以我「不採用」。
------
接下來我需要把“一字多音審訂表”「表格」內的注音符號對應並複製到教育部 4808 個常用字下載.ods 裡頭的常用字隔壁的新的空欄位。
在查閱資料的過程中,我發現“一字多音審訂表”的注音符號“ㄧ”是“豎”的,所以我必須先透過純文字編輯器將之改成“橫”的,再複製到教育部 4808 個常用字下載.ods 裡頭。然後我又發現“一字多音審訂表”的“輕聲符號”背後的 unicode 碼位是“用於組合的點”,所以我還是得透過純文字編輯器將之改成“非”“用於組合的點”,再複製到教育部 4808 個常用字下載.ods 裡頭。
然後我又發現,網路上現成既有的大字集注音輸入法表格,可能會有跟“國語一字多音審訂表”“資料不同步”的狀況。
就這樣我發現我必須土法煉鋼的“手動處理” 4808 個常用字,每處理一個字,都要確認過一次,因為「有可能」會發現新的「原始資料瑕疵」。
可是當我處理完一百個常用字之後,就開始有疲勞感了,要處理完 4808 個常用字會覺得非常遙遠。
接下來我想到把 PDF 裡頭其中章節那連續幾十頁的“一字多音審訂表”「表格」全選複製,然後直接貼到 LO CALC 裡頭,貼出來的結果只有一欄,一欄裡頭擠滿了原本一列五欄的內容,處理起來更複雜。
若把 LO 直接開啟 PDF ,會被辨識成用 DRAW 開啟,開啟之後的效果慘不忍睹,而且只要更動其中一個字元,就會遭遇滑鼠游標彩球狂轉,不曉得何時才會結束。
「無法符合」到我期望的原本的 PDF 裡的表格的「相對位置」是什麼, LO CALC 格子裡頭的相對位置就是什麼。
接下來我又想到把 PDF 轉 ODT , google 關鍵字找到的都是網路線上轉檔服務,我試了兩個網站,轉出來的呈現效果「都很差」,難以做繼續編輯的動作,我就不想再試第三個了。
因此我在想,在「不使用」Adobe Acrobat Pro 、 MsOffice 的前提下,除了土法煉鋼的一筆一筆的資料處理之外,還可以怎麼樣「相對有效率」的把 PDF 裡頭的表格給整個複製出來,經過處理流程,最終輸入或匯入到 LO CALC ,成為 4808 個常用字的對照注音資料?

發表過的網路文字作品;
https://sites.google.com/site/ianho7979/home
discuss pic 2017-12-05 18:36:26
我還是很雞婆的打電話給教育部,反應教育部官網公告的國語一字多音審訂表 PDF 的文件編輯有嚴重的“ unicode 碼位瑕疵”,他們之後會真的就去著手修正並重新上傳文件嗎?還是不了了之?就天知道了~~~
發表過的網路文字作品;
https://sites.google.com/site/ianho7979/home
:::

誰在線上

11人線上 (10人在瀏覽互動討論區)

會員: 0
訪客: 11

更多…