【英語論文の書き方】第87回 「スプレッドシートを安全に使う」について

2023年4月13日 11時26分

第86回では「科学において有効な方法は仮説検定(hypothesis testing)だけではない」を取り上げました。

第87回(今回)のテーマは
「スプレッドシートを安全に使う」についてです。
 
表計算ソフトのスプレッドシートは非常にシンプルに見えるため、
ユーザーの多くは安全であるものと誤解しがちです。
 
しかし残念ながら、スプレッドシートも他のソフトフェアと同じように
分析をサポートするための不可欠なツールにもなりますし、
データが改ざんされたり、誤って分析されるという悪夢にもなり得ます。
 
今回の記事では、スプレッドシートの使い方に関して
Geoffさんがこれまで見たことがある問題点や、
その解決方法についてお話します。
 
項目は以下の8つです。
 
・Consider using real statistical software
・Protect your raw data
・Document your data
・Import data, don’t copy it
・Validate your data
・Be wary of AutoCorrect and AutoFormat
・Document and review your analysis
・Understand your limits
 
スプレッドシートを安全に使用するための参考となれば幸いです。
是非お読みください!

Using spreadsheets safely By Geoffrey Hart

Spreadsheet software seems so simple that it misleads many users into thinking it’s safe. Unfortunately, like any other software, a spreadsheet can be either an essential tool to support analysis—or a nightmare of altered or incorrectly analyzed data. Learning to use spreadsheets safely increases the likelihood that your spreadsheet will become an essential tool. In this article, inspired by Perkel (2022), I’ll discuss some of the problems I’ve seen with spreadsheet use and some potential solutions.
Note: Most of these suggestions work equally well with special-purpose statistical software, so look for ways to implement them with that software too.

Consider using real statistical software

My first advice is to avoid using a spreadsheet if you have learned how to use to real statistical software, such as R (https://www.r-project.org/) or SPSS (https://www.ibm.com/analytics/spss-statistics-software). The statistical software is debugged more carefully and validated more rigorously than most spreadsheets. For example, Microsoft Excel has a long history of calculation bugs. Updating your spreadsheet software regularly is one way to ensure that known bugs have been corrected, but there’s a risk that if you update your software too quickly, you’ll encounter a newly introduced bug that hasn’t yet been detected. Don’t be the first person to update nor the last.

Protect your raw data

The raw data you collect in the field or the lab is irreplaceable. Thus, it’s essential that you store it somewhere safe and always work on a copy of that original data. For additional security, write-protect this file (https://www.worldts.com/english-writing/eigo-ronbun83/index.html) and create multiple backups: one in your working directory, one on external media such as a flash drive or DVD, and one “in the cloud” (e.g., in DropBox). You can use that original version of your data to provide a reference for the spreadsheet data, but it will also let you start your analysis again if you discover a problem with the transformed data in your spreadsheet.

Document your data

The spreadsheet that looks clear and comprehensible immediately after you create it may become incomprehensible in a year when you try to reuse your data, whether to perform new calculations or validate old ones. Explain the contents of each page of a spreadsheet by using human-comprehensible variable names (see my article on naming variables) and by adding headings and subheadings that are separate from the data and presented as full sentences. Note that although spreadsheets offer many tools for organizing data and making it more legible, you should use those tools sparingly, and test carefully to ensure that they don’t interfere with your ability to transfer the data to other programs, such as R or SPSS.
If you use color to code categories of your data, ensure that the coding remains visible if the file is converted to black and white. (Statistical software probably won’t import any customized formats you created in your spreadsheet.) If you use color, choose colors that differ visibly even for readers who suffer from colorblindness. For example, red–green colorblindness affects up to 8% of men and 0.5% of women, depending on the population. Thus, don’t rely on those two colors to label data as (for example) positive = green and negative = red. Instead, use headings such as “Positive” and “Negative”.
Note: The more complex your data structure, the greater the necessity to describe it clearly in a document that isn’t part of your spreadsheet or that appears on a worksheet separate from the data and calculations. If your spreadsheet doesn’t handle large chunks of text well, create “read me” files that contain the instructions. Then store them in the same directory as your data.

Import data, don’t copy it

Rely on the tools provided by your software to minimize data-transcription errors. Don’t manually re-type anything if you can copy and paste that information. Don’t copy and paste data if you can import it (i.e., have the new software read the data file directly). These practices eliminate different categories of error (typing errors and copy/paste errors, respectively).
Once the data is stored in your spreadsheet, confirm that the grid of data you defined in your spreadsheet matches the grid in the raw data and the grid that your statistical software will use to import the data. Missing data and mismatched data, such as heading rows that are imported incorrectly as data, can lead to serious errors.

Validate your data

Data validation is tedious and frustrating, but essential. Start with simple steps such as ensuring that the number of records equals the sample size. For a simple, nontechnological solution, have one person read the data aloud while the other person examines the spreadsheet and ensures the data was entered (or imported) correctly. Develop more sophisticated automatic checks. For example, use two methods (e.g., copy/paste the data and then use the spreadsheet’s import function) to create two copies of the same data on separate pages. Then merge the data in a third page and subtract each cell in one page of data from the corresponding cell in the other page. Since the data should be identical in both files, any non-zero values represent a transcription or import error.
Don’t forget to refresh your spreadsheet after you make changes. The software should do this automatically, but sometimes it forgets. To force your spreadsheet to refresh its calculation results, look for a relevant menu choice or keyboard shortcut. In Microsoft Excel, for example, use the Refresh function (under the Data menu on a Macintosh or in the Data tab of the ribbon for both Macintosh and Windows versions), or press F9 to refresh the entire workbook.

Be wary of AutoCorrect and AutoFormat

Excel offers a useful tool that will automatically change shortcut text into a word or sentence, or automatically reformat the contents of a cell. This can save much time by reducing the amount of typing required. Unfortunately, many of these changes are poorly implemented and can introduce serious errors. A recent review (Abeysooriya et al. 2021) suggested that the well-publicized 2018 Microsoft Excel bug that changed correct gene names into incorrect names had been corrected, but that nearly one-third of the published gene names they checked 2 years later had not been corrected.

Document and review your analysis

Review your sequence of analytical steps carefully to ensure that the logic is correct and that you have defined the correct range of spreadsheet cells. It’s easy to add a new row of data and fail to include the new data in calculations of the total or mean value for one or more columns of data. Once your logic seems correct, validate it using test data; for example, manually calculate the mean value of a subset of the data, and compare it with the same calculation performed by the spreadsheet.
Document your logic (the reasoning behind your method) for calculations and for classifying data into categories. For example, define one or more criteria and choose appropriate threshold values for each criterion. This makes it much easier to revisit your data and confirm there are no classification errors. In particular, confirm that field types are correctly defined so that the spreadsheet doesn’t damage your data (e.g., by treating numerical data as text, by rounding numbers to the wrong number of decimal places). Ask a colleague who wasn’t involved in the analysis to review your documentation to ensure that it’s as clear as you think it is.
Note: Don’t use built-in commenting features such as Microsoft Excel’s comments. They’re implemented using tiny icons that are easy to miss (particularly on large monitors) or to accidentally delete.

Understand your limits

People who work full-time as professional computer programmers or data analysts (e.g., statisticians) usually hold at least one degree in this subject, supplemented by years of experience. Some may have spent 9 or more years achieving a PhD in this subject. You will not acquire this same level of expertise simply by spending a week reading the user manual for your spreadsheet. Always consult experts to ensure that you really know what you’re doing.

References

Abeysooriya, M.; Soria, M.; Sravya Kasu, M.; Ziemann, M. 2021. Gene name errors: lessons not learned. PLOS Computational Biology. (https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1008984)
Perkel, J.M. 2022. Six tips for better spreadsheets. Nature Technology Features 2 August 2022. (https://www.nature.com/articles/d41586-022-02076-1)

無料メルマガ登録

メールアドレス
お名前

これからも約2週間に一度のペースで、英語で論文を書く方向けに役立つコンテンツをお届けしていきますので、お見逃しのないよう、上記のフォームよりご登録ください。
 
もちろん無料です。

バックナンバー

第1回 if、in case、when の正しい使い分け:確実性の程度を英語で正しく表現する

第2回 「装置」に対する英語表現

第3回 助動詞のニュアンスを正しく理解する:「~することが出来た」「~することが出来なかった」の表現

第4回 「~を用いて」の表現:by と with の違い

第5回 技術英文で使われる代名詞のitおよび指示代名詞thisとthatの違いとそれらの使用法

第6回 原因・結果を表す動詞の正しい使い方:その1 原因→結果

第7回 原因・結果を表す動詞の使い方:その2 結果→原因

第8回 受動態の多用と誤用に注意

第9回 top-heavyな英文を避ける

第10回 名詞の修飾語を前から修飾する場合の表現法

第11回 受動態による効果的表現

第12回 同格を表す接続詞thatの使い方

第13回 「技術」を表す英語表現

第14回 「特別に」を表す英語表現

第15回 所有を示すアポストロフィー + s ( ’s) の使い方

第16回 「つまり」「言い換えれば」を表す表現

第17回 寸法や重量を表す表現

第18回 前置詞 of の使い方: Part 1

第19回 前置詞 of の使い方: Part 2

第20回 物体や物質を表す英語表現

第21回 句動詞表現より1語動詞での表現へ

第22回 不定詞と動名詞: Part 1

第23回 不定詞と動名詞の使い分け: Part 2

第24回 理由を表す表現

第25回 総称表現 (a, theの使い方を含む)

第26回研究開発」を表す英語表現

第27回 「0~1の数値は単数か複数か?」

第28回 「時制-現在形の動詞の使い方」

第29回  then, however, therefore, for example など接続副詞の使い方​

第30回  まちがえやすいusing, based onの使い方-分詞構文​

第31回  比率や割合の表現(ratio, rate, proportion, percent, percentage)

第32回 英語論文の書き方 総集編

第33回 Quality Review Issue No. 23 report, show の時制について​

第34回 Quality Review Issue No. 24 参考文献で日本語論文をどう記載すべきか​

第35回 Quality Review Issue No. 25 略語を書き出すときによくある間違いとは?​

第36回 Quality Review Issue No. 26 %と℃の前にスペースを入れるかどうか

第37回 Quality Review Issue No. 27 同じ種類の名詞が続くとき冠詞は付けるべき?!​

第38回 Quality Review Issue No. 22  日本人が特に間違えやすい副詞の使い方​

第39回 Quality Review Issue No. 21  previous, preceding, earlierなどの表現のちがい

第40回 Quality Review Issue No. 20 using XX, by XXの表現の違い

第41回 Quality Review Issue No. 19 increase, rise, surgeなど動詞の選び方

第42回 Quality Review Issue No. 18 論文での受動態の使い方​

第43回 Quality Review Issue No. 17  Compared with とCompared toの違いは?​

第44回 Reported about, Approach toの前置詞は必要か?​

第45回 Think, propose, suggest, consider, believeの使い分け​

第46回 Quality Review Issue No. 14  Problematic prepositions scientific writing: by, through, and with -3つの前置詞について​

第47回 Quality Review Issue No. 13 名詞を前から修飾する場合と後ろから修飾する場合​

第48回 Quality Review Issue No. 13 単数用法のThey​

第49回 Quality Review Issue No. 12  study, investigation, research の微妙なニュアンスのちがい

第50回 SinceとBecause 用法に違いはあるのか?

第51回 Figure 1とFig.1の使い分け

第52回 数式を含む場合は現在形か?過去形か?

第53回 Quality Review Issue No. 8  By 2020とup to 2020の違い

第54回 Quality Review Issue No. 7  high-accuracy data? それとも High accurate data? 複合形容詞でのハイフンの使用

第55回 実験計画について

第56回 参考文献について

第57回 データの分析について

第58回 強調表現について

第59回 共同研究の論文執筆について

第60回 論文の略語について

第61回 冠詞の使い分けについて

第62回 大文字表記について

第63回 ダッシュの使い分け

第64回 英語の言葉選びの難しさについて

第65回 過去形と能動態について

第66回 「知識の呪い」について

第67回 「文献の引用パート1」について

第68回 「文献の引用パート2」について

第69回 「ジャーナル用の図表の準備」について

第70回 「結論を出す ~AbstractとConclusionsの違い~」について

第71回 「研究倫理 パート1: 研究デザインとデータ報告」について

第72回 「研究倫理 パート2: 読者の時間を無駄にしない」について

第73回 「記号と特殊文字の入力」について

第74回 「Liner regression(線形回帰)は慎重に」について

第75回 「Plagiarism(剽窃)を避ける」について

第76回 研究結果がもたらす影響を考える

第77回 「データの解析(パート1):データ探索を行う」について

第78回 「データの解析(パート2):統計分析」について

第79回 「データの解析(パート3):データを提示する」について

第80回 データ、その他の大事なものをバックアップする(パート1)

第81回 「データ以外のもの(パート2)」について

第82回 「研究データと関連文書の管理(パート1):研究内容を文書で厳密に記録することがなぜ大切なのか」について 

第83回 「研究データと関連文書の管理(パート2):必要なプロジェクトファイル、フォルダ(ディレクトリ)の構成とデータの消去 

第84回 研究データと関連文書の管理(パート3):データ検証とカスタム開発ソフトウェア

第85回 研究データと関連文書の管理(パート4):ファイルの複製

第86回 「科学において有効な方法は仮説検定(hypothesis testing)だけではない」について


〒300-1206
茨城県牛久市ひたち野西3-12-2
オリオンピアA-5

TEL 029-870-3307
FAX 029-870-3308
ワールド翻訳サービス スタッフブログ ワールド翻訳サービス Facebook ワールド翻訳サービスの動画紹介