【英語論文の書き方】第74回 「Liner regression(線形回帰)は慎重に」について

2020年5月27日 10時00分

第73回では「記号と特殊文字の入力」を取り上げました。

第74(今回)のテーマは
「Liner regression(線形回帰)は慎重に」についてです。
 
Geoffさんが校閲を行う上で、もっともよく遭遇する問題のひとつは、
Liner regression(線形回帰)の使用に関することだそうです。
 
今回の記事では、Liner regressionを使うことが適切でない状況や、
注意しなければいけないことについて述べられています。
研究職の方にとって、とても興味深い内容となっていますので、
ぜひお読みいただければと思います。

 

Be cautious with linear regression: some datasets are not linear! By Geoffrey Hart

One of the most common problems I encounter in my editing is the use of linear regression. Linear regression is, of course, a perfectly appropriate way to describe phenomena in which a change in an independent (causal) variable causes a proportional change in the dependent variable. Linear relationships are common in nature. Consider a simplistic example: If you double the temperature at which an endothermic chemical reaction occurs, you often double the reaction rate because you have doubled the amount of energy available to drive the reaction. A similar relationship exists for processes such as drying a sample to determine its moisture content or dry weight.
Note: In this article, I will focus on relationships between two variables at a time. Similar advice applies to relationships among multiple variables, although the solutions are more complex.
The problem arises when the phenomenon you’re describing is not linear. Many natural phenomena are nonlinear. For example, in a nuclear fission reactor, the fission process releases neutrons that can trigger the release of additional neutrons. Left unstopped, this can lead to a chain reaction in which the reaction rate (the amount of fission) increases exponentially until the reactor escapes control, leading to a meltdown. Such positive-feedback mechanisms are common in biology too. For example, during the degradation of a vegetation ecosystem, vegetation loss can expose the soil surface, making the soil more vulnerable to erosion by wind or rainfall. As erosion increases, it removes the most nutrient-rich surface soil, which decreases vegetation health and makes the vegetation more vulnerable to mortality. If that mortality occurs, it exposes more of the soil surface, which accelerates soil erosion and further decreases vegetation health. (These are examples of what is called positive feedback.)
Natural systems also commonly have ranges of conditions that show different behaviors, with the ranges separated by threshold values. Even when responses are linear within each range of conditions, the slopes and intercepts of the response lines differ between the ranges. For example, consider the different behaviors of water in its most commonly observed phases: solid water (ice), liquid water, and gaseous water. To increase the temperature of water in these three phases by 1°C, it’s necessary to add 2.11, 4.18, and 2.00 J of energy, respectively, per gram of water. Thus, to fully describe the response of water temperature to the addition of energy, it’s necessary to use a different equation for each phase.
Water temperature also shows discontinuities that represent thresholds between these phases. For example, for solid ice to become liquid water, the ice will absorb up to 333.55 kJ of energy per gram before the temperature begins to rise again, and will absorb an even larger amount of energy (2260 kJ per gram) before liquid water becomes a vapor and its temperature begins increasing again.
For such phenomena, simple linear regression is clearly not appropriate for the whole range of conditions under which the phenomenon will be studied. In such cases, it’s necessary to use piecewise (segmented) regression, with a separate linear regression performed for each phase.
Another problem with linear regression is that it assumes no bounds to the relationship you’re studying. In practice, most natural processes have a boundary they cannot exceed, such as an asymptote that defines a maximum or minimum value. For example, mortality within a populations can never be less than 0% and can never exceed 100%, so any linear regression that does not account for that minimum and maximum will produce misleading or completely wrong results. Similarly, if we’re studying how life expectancy improves as we invest more money in access to healthcare or in the quality of the care that is provided, we can expect life expectancy to increase with increasing access and quality. However, for the foreseeable future, we cannot expect these increases to provide immortality, so any regression analysis must be bounded by some maximum age.
This leads to an important caution that researchers often forget: It is dangerous to extrapolate a regression equation beyond the range of your data or beyond your experimental conditions. If you lack data for conditions outside those ranges, you have no way to know whether and where limits such as asymptotes exist and no way to know whether different phases exist that will require an additional, different analysis to detect thresholds.
To detect such problems and guide you in choosing the most appropriate form of regression analysis, always do three things:
 
  • First, think carefully about the phenomena your data represent. Think about the physical process you are trying to describe mathematically. If you suspect the existence of phase changes, as in my example of the three main phases of water, or the existence of a threshold (again, for water) or an asymptote, as in my example of mortality, consider a form of regression that will detect the need for different equations for different ranges of conditions. If you know that alternative stable states exist, separated by a threshold, examine those states separately.
  • Second, inspect a scatterplot of your visually to see whether any obvious trend exists. If all of the data appear to cluster closely around the same straight line, then linear regression may be perfectly appropriate. However, if the data follow a curving path, nonlinear regression will be necessary.
  • Third, once you have detected the possibility of a conceptual or visual trend, try several different equation forms that could potentially describe the trend. For example, if you have reason to believe that a phenomenon is nonlinear, perform both an exponential regression (e.g., y = x2) and a logarithmic regression (e.g., y = ln x) to see which provides the best fit to your data. For processes that might be cyclical (e.g.,
 for diurnal temperature changes), consider using a regression based on a sine function.
 
These steps greatly increase the likelihood that you will detect something new and interesting, and possibly something that previous researchers missed because they insisted on using linear regression for an inherently nonlinear phenomenon. Graphs that don’t confirm with your expectations may reveal important phenomena, such as when a process changes from linear to nonlinear or back again.
 
 

無料メルマガ登録

メールアドレス
お名前

これからも約2週間に一度のペースで、英語で論文を書く方向けに役立つコンテンツをお届けしていきますので、お見逃しのないよう、上記のフォームよりご登録ください。
 
もちろん無料です。

バックナンバー

第1回 if、in case、when の正しい使い分け:確実性の程度を英語で正しく表現する

第2回 「装置」に対する英語表現

第3回 助動詞のニュアンスを正しく理解する:「~することが出来た」「~することが出来なかった」の表現

第4回 「~を用いて」の表現:by と with の違い

第5回 技術英文で使われる代名詞のitおよび指示代名詞thisとthatの違いとそれらの使用法

第6回 原因・結果を表す動詞の正しい使い方:その1 原因→結果

第7回 原因・結果を表す動詞の使い方:その2 結果→原因

第8回 受動態の多用と誤用に注意

第9回 top-heavyな英文を避ける

第10回 名詞の修飾語を前から修飾する場合の表現法

第11回 受動態による効果的表現

第12回 同格を表す接続詞thatの使い方

第13回 「技術」を表す英語表現

第14回 「特別に」を表す英語表現

第15回 所有を示すアポストロフィー + s ( ’s) の使い方

第16回 「つまり」「言い換えれば」を表す表現

第17回 寸法や重量を表す表現

第18回 前置詞 of の使い方: Part 1

第19回 前置詞 of の使い方: Part 2

第20回 物体や物質を表す英語表現

第21回 句動詞表現より1語動詞での表現へ

第22回 不定詞と動名詞: Part 1

第23回 不定詞と動名詞の使い分け: Part 2

第24回 理由を表す表現

第25回 総称表現 (a, theの使い方を含む)

第26回研究開発」を表す英語表現

第27回 「0~1の数値は単数か複数か?」

第28回 「時制-現在形の動詞の使い方」

第29回  then, however, therefore, for example など接続副詞の使い方​

第30回  まちがえやすいusing, based onの使い方-分詞構文​

第31回  比率や割合の表現(ratio, rate, proportion, percent, percentage)

第32回 英語論文の書き方 総集編

第33回 Quality Review Issue No. 23 report, show の時制について​

第34回 Quality Review Issue No. 24 参考文献で日本語論文をどう記載すべきか​

第35回 Quality Review Issue No. 25 略語を書き出すときによくある間違いとは?​

第36回 Quality Review Issue No. 26 %と℃の前にスペースを入れるかどうか

第37回 Quality Review Issue No. 27 同じ種類の名詞が続くとき冠詞は付けるべき?!​

第38回 Quality Review Issue No. 22  日本人が特に間違えやすい副詞の使い方​

第39回 Quality Review Issue No. 21  previous, preceding, earlierなどの表現のちがい

第40回 Quality Review Issue No. 20 using XX, by XXの表現の違い

第41回 Quality Review Issue No. 19 increase, rise, surgeなど動詞の選び方

第42回 Quality Review Issue No. 18 論文での受動態の使い方​

第43回 Quality Review Issue No. 17  Compared with とCompared toの違いは?​

第44回 Reported about, Approach toの前置詞は必要か?​

第45回 Think, propose, suggest, consider, believeの使い分け​

第46回 Quality Review Issue No. 14  Problematic prepositions scientific writing: by, through, and with -3つの前置詞について​

第47回 Quality Review Issue No. 13 名詞を前から修飾する場合と後ろから修飾する場合​

第48回 Quality Review Issue No. 13 単数用法のThey​

第49回 Quality Review Issue No. 12  study, investigation, research の微妙なニュアンスのちがい

第50回 SinceとBecause 用法に違いはあるのか?

第51回 Figure 1とFig.1の使い分け

第52回 数式を含む場合は現在形か?過去形か?

第53回 Quality Review Issue No. 8  By 2020とup to 2020の違い

第54回 Quality Review Issue No. 7  high-accuracy data? それとも High accurate data? 複合形容詞でのハイフンの使用

第55回 実験計画について

第56回 参考文献について

第57回 データの分析について

第58回 強調表現について

第59回 共同研究の論文執筆について

第60回 論文の略語について

第61回 冠詞の使い分けについて

第62回 大文字表記について

第63回 ダッシュの使い分け

第64回 英語の言葉選びの難しさについて

第65回 過去形と能動態について

第66回 「知識の呪い」について

第67回 「文献の引用パート1」について

第68回 「文献の引用パート2」について

第69回 「ジャーナル用の図表の準備」について

第70回 「結論を出す ~AbstractとConclusionsの違い~」について

第71回 「研究倫理 パート1: 研究デザインとデータ報告」について

第72回 「研究倫理 パート2: 読者の時間を無駄にしない」について

第73回 「記号と特殊文字の入力」について


〒300-1206
茨城県牛久市ひたち野西3-12-2
オリオンピアA-5

TEL 029-870-3307
FAX 029-870-3308
ワールド翻訳サービス スタッフブログ ワールド翻訳サービス Facebook ワールド翻訳サービスの動画紹介