爆速で英語論文を読む

[概要] この記事では、shellと適当な翻訳ソフトで、英語論文をチャチャっとそれなりに和訳して、内容を把握するための情報処理Tipsを提供します。
途中、なぜこのような記事を書くに思い至ったか、という雑感が著してありますが、急いでいる人は [方法] まで飛んでください。
[4/16日: 文字化け問題を解消しました。]
[序文] 
このコロナウイルス騒動で、自宅待機を命じられ、しこたま英語論文を読んでいる人も多いのではないでしょうか。
特に、ラボに入って間もない学生さんたちには、とてつもない苦行なのではないか?と推測します。
私は今でも、英語をスラスラ読めるわけではないですし、ラボに入った頃を思い返すと、読んでも読んでも全然頭に入ってこなかったのを、とても鮮明に覚えています。
(読んだ論文の中身は覚えてないけど。。)

修士時代に留学先で出会ったアメリカ人は、Reveiw論文を何報も読んでいて、爽やかに「これがオススメだよ!」と、300 P 近くの論文の束を、わざわざプリントアウトして僕にくれました。
こんなん勝てるわけねぇ、、と思ったものです。

なぜ読めないのか?!?

分析してみると、2つの要因があるように思います。

1. 英語が不得意(そりゃそうだ)
2. 書いてある内容(サイエンティフィックな論理)が難しい

どちらか一方が苦手なだけな人であれば、継続的な努力でなんとかなりそうです。
しかし、どちらも訓練がたりていなかったとしたら・・・?

英語論文を読むって、一輪車に乗りながら、そろばんを弾くくらいの難易度があるのではないでしょうか。


イラストやにも、流石にこれらを同時にこなす人のイラストはなかった。)

この点について、twitterを見ていると、

• ラボに入ったら、和文の総説から読み始めたらいいんだよ! 派と、
• 初めに変な癖がつくと良くないので一流とされている研究者の総説がいいよ! 派、

が戦っていました。昔は、後者押しでしたが、最近私は前者に傾いています。
というのも、境界領域的な仕事をしようとすると、やはり英語では吸収速度が遅く、間に合いません。
和文で概要を掴んでから、ピンポイントな論文は英語の原著、ということが多いです。

毀誉褒貶のある人ですが、人工知能について研究している新井紀子修士が、ベストセラーとなった本の中で、ぎょっとするようなことを書いています。

"私たちが考案した基礎的・汎用的読解力を測るリーディングスキルテスト(RST)には、「同義文判定」という問題群があります。200字に満たない2つの文の意味が同じか、異なるか、二択で選択します。この能力は記述式問題の答え合わせをするうえで欠かせない能力です。例えば、こんな問題です。

・幕府は、1639年、ポルトガル人を追放し、大名には沿岸の警備を命じた。
・1639年、ポルトガル人は追放され、幕府は大名から沿岸の警備を命じられた。

以上の2文は同じ意味でしょうか。

もちろん、答えは「異なる」です。けれども、中学生の正答率は57%にとどまりました。"
東洋経済オンラインから引用

信じられない、という人もいるとおもいますが、私はこの正答率に違和感がありません。
文章の読解は、「1. キーワードを拾う」→「2. キーワードとキーワードの関係を把握する」→「3. 文と文、段落と段落の関係の把握」というレイヤーからなっていると思いますが、1から2のシフト、2から3のシフトができるか否かで、大きな読解力のレベル差があるのではないか、と思っているからです。
文章を理解する、というのはつまるところ単語がどのようにつながって、大きなストーリーをなしているかを読む作業と言い換えられると思います。
(さらには、4. その文章がぶら下がっているコンテクストを読むフェーズがあるでしょう。)

英語論文を読むことに話を戻すと、

上述の1. と、2.に加えて、

3. 意味のつながりを把握する

という難所も英語論文の読解にはありそうです。
壁にぶつかったときは、要素に分解してできることからやりませんか?

日本語で一旦、論文の構造を把握し、利用している実験、理論の原理などを和文でよいので習得し、その後、英文に丁寧にあたっていくのがよいのでは?と思っています。

一定量の論文を読んで、周辺知識、定番の論理構造が理解できれば、英語でそのまま読んでも、単語を調べるだけでなんとかなるようになると思います。
さて、序文としたところが大半となりましたが、じゃあどうするかというのを提案したいと思います。


[方法]
1. 英語論文の情報を、text フォーマットに変換する
あなたが読みたいと思っている情報ソースは、紙、pdf、ウェブのHTMLデータのどれかなのではないでしょうか。これらを一旦、txtへと変換します。

1-A. 情報が、教科書のコピーなどの場合、まずOCRを使って文字情報を抽出する
さまざまなサービスがあると思いますが、下記のページのツールで過不足ありませんでした。txtフォーマットで、抽出した文字情報を保存する。 
https://www.onlineocr.net/ja/

1-B. 論文がpdfの場合(mac向けに書いています。winの方はすみません。)
ターミナルを起動。前にshellを用いたpdfの処理について紹介した記事で書いた、poplerというpdf処理プログラムを利用します。
インストールしていなければ、以下のコマンドを叩くと、「command not found」というエラーが返ってきます。

$ pdftotext -nopgbrk XXX.pdf > XXX.txt

XXXの部分に、いま変換したいpdfの名前を入れましょう。

さて、和訳されたファイルは、改行などで変な部分で文章が切れています。
切れていても、いい感じに訳をできるかもしれませんが、少しきれいにしておきたいところです。以下のコマンドを使います

cat XXX.txt | tr -d "\n" > XXX2.txt

cat コマンドで、textを呼び出した後、
tr コマンドで、改行コードを意味する \n を削除します。
tr は、基本的に置換のコマンドですが、オプションの -d を入れることで、交換ではなく、削除 (delete) して!という指示を下す事ができます。
(あなたの環境によっては、バックスラッシュは¥マークになるかも!) 

その後、> XXX2.txt は、出力(操作の結果)に名前をつけて保存するという操作です。
出てきたファイルはすべて一行になったテキストのハズです。

1-C. 論文誌のHTMLなどにアクセスできる場合
Python のBeautiful Soup や、lxml を使えば、おそらく、一番キレイにtextを起こせる手段だと思います。しかし、残念ながら私にはまだできません!(ちょっとまって。)

2. textファイルを翻訳
次、テキストを機械翻訳を行います。

文章が短ければ(pdfにして1ページ程度)前半の方法(2-A)、
長ければ、後半を推奨です(2-B)。

2-A. 訳したい文章が短い
一昔前には、かなり難のあった和英訳ですが、近年の技術の進歩は目を瞠るばかりです。
google 翻訳に加えて、DeepL というサービスは、大変評価が高い
私のエセ関西弁も、キレイに翻訳してくれました。


ドイツのベンチャーらしいです。
日本製でも、非常に質のよいサービスが有って、未来翻訳というのがあります。
DeepLと未来翻訳の精度は、パットみたところ顕著な差はありませんが、もしかすると日本語に特化している文、敬語なんかは得意かもしれません。
これらのサイトにアクセスして、ちゃちゃっと翻訳してください。

2-B. 訳したい文章が長い
••••しかし、これらのサービスは、無料版では一度に翻訳できる量に限りがあります。
そこでやっぱり戻ってくるのはgoogleです。
結構なみなさんが、google製のwebブラウザ、chromeを使っていると思いますが、ここにtextをドラッグ&ドロップしてちょいちょいとクリックするだけで、textファイルの中身が和訳されます。
和訳されたものを、xxx2jp.txt、とか適当な名前で保存します。


3. 和文に改行を入れる。
これをしなくても読めます。
読めますが、改行がないのは結構しんどいです。以下のコマンドを試してみてください。


$ cat XXX2jp.txt | sed -e "s/。/。%/g" | tr '%' '\n' > 3.txt

sed コマンドで、文章中にある句点(。)を、(。%)で変換しています。
続いて、tr コマンドで、文章中にある(%)を、改行コマンド(\n)に変換しています。

sed も tr も、似たことをやっています。
詳しいことが、私にはわからんのですが、

• sed では、改行コマンドがうまく扱えない
• trでは、置換文字の指定の柔軟性が、sed ほど高くない

という制約があって、組み合わせて使いました。
作成したファイルはテキストエディタでもいいですし、ワードとか適当なソフトで開けば、読みやすく表示できるはずです。

以上です!


[結文]
文章を読む力がある人を評して、「あの人は行間を読むことができる」などと評しますが、これは、以下の 3. 4.ができているから、できることなのでしょう。

1. キーワードを拾う
2. キーワードとキーワードの関係を把握する
3. 文と文、段落と段落の関係の把握
4. その文章がぶら下がっているコンテクストを読む

生まれたての赤ん坊は、1. のフェーズから、徐々に自分の把握できる世界を広げます。
その成長力は驚異的ですが、成長期を過ぎた人間のアドバンテージは、3. および 4. についての蓄積がある点でしょう。

3. については、科学論文に無限のパターンはないはずです。
これまでに精読してきた文章の数に比例して、筆者の論理展開についての道筋を把握する力がついているはずです。
というか実は、欧米の研究者と日本人で、ここの感性が違うことが、「おまえ、英文校閲しろよ!?」というガチギレ査読コメントが来る要因だと思います。文法ではなく、論の展開が、彼らにとってはストレートでない。逆にここさえ大丈夫であれば、同じ単語頻出のジャパングリッシュ論文でも、苦情は来ないとおもう。)

4.について。科学分野については、4. の理解が一旦身につけば、1→2 の理解は、比較的容易なのではないかと思っています。
だから日本語でもよいので、まず 4. を作って欲しいと思います。

ある程度、その分野の「常識」、「表現法」が身についたら、ガンガン英語論文を読んでほしいと思います!





コメント

このブログの人気の投稿

VNCで見ている画面と自分のマシンの間でのコピー&ペースト

Natural Bond Orbital (NBO) Analysis, 自然軌道解析をやってみる

Lanl2DZの使い方