我们先唠个嗑文爱 porn,有莫得觉顺应今时间序列展望这玩意儿,特像个薛定谔的猫?
一方面,多样Transformer模子,又是LogSparse,又是MTS,搞得花里胡梢,仿佛啥齐能展望;另一方面,冷不防冒出个“极简线性追忆”,就能把它们按在地上摩擦。
你说这到底是科技跳跃,依然在山公补丁?
这篇著作,就想跟你聊聊这个事儿。
不是那种炉火纯青的学术分析,就想跟你唠唠嗑,说说时间序列展望这池水,到底有多深。
先说说这个Transformer。
这玩意儿原本是搞当然言语处理的,即是让机器翻译翻译,写写著作啥的。
它狠恶在哪儿呢?
能收拢句子里的“长程依赖”,即是说,一句话前边说的,跟后头说的,它能昭着是相关联的。
当时间序列展望呢?
简便说,即是凭据畴昔的数据,猜猜异日会发生什么。
比如,凭据畴昔的股票价钱,展望翌日的涨跌;凭据畴昔的用电量,展望下个月的需求。
听起来挺酷炫的,对吧?
是以,有东说念主就把Transformer搬过来用了。
认为这玩意儿能收拢时间序列里的“长程依赖”,展望得更准。
于是,多样Transformer变种就出来了,什么LogSparse Transformer,MTS Transformer,Informer,ContiFormer……名字一个比一个唬东说念主。
但问题来了。
这些Transformer变种,齐挺复杂的,转换也挺大的。
这就带来一个问题:它们果真比简便的模子好吗?
约略说,这些转换,果真有必要吗?
这就好比,你想用锤子钉钉子,成果有东说念主给你一把瑞士军刀,功能是挺多,但你得先盘考半天,才能找到锤子的功能,并且可能还没闲居锤子好用。
更扎心的是,有东说念主作念了个实验,发现一个“令东说念主诧异的简便”的单层线性追忆模子,在好多基准测试中,竟然比那些开端进的时间序列Transformer模子还要好。
这就像什么?
就像你辛困难苦学了十年武功,成果发现东说念主家拿把菜刀,就能把你砍翻。
海选av女优这脸打得啪啪响啊!文爱 porn
是以,这就引出了一个问题:我们是不是需要一个更简便的Transformer基线,一个“极简时间序列Transformer”,来行为参照?
这就好比,你想知说念一把瑞士军刀到底好不好用,你得先有一把闲居的锤子,行为对比。
否则,你齐不知说念这瑞士军刀,到底强在哪儿,弱在哪儿。
那么,问题来了,这个“极简时间序列Transformer”应该长什么样呢?
要知说念,原始的Transformer是用来处理闹翻数据的,即是那种一个一个的“token”,比如,一个词,一个字母。
但时间序列数据是不时的,是那种一串一串的数字。
是以,要让Transformer能处理时间序列数据,最起码要作念点修改。
那最少的修改是什么呢?
著作里给出的谜底是:把阿谁“整数到向量”的镶嵌层,换成一个“向量到向量”的线性层。
啥道理呢?
简便说,即是把Transformer里,用来把闹翻数据造成向量的那部分,换成一个简便的线性变换。
这就好比,你想把一堆积木,造成一堆沙子。
你不需要把积木磨成粉,再用胶水粘起来,你只需要把积木拆散,造成一堆沙子就行了。
这个“极简时间序列Transformer”,著作里叫它MiTS-Transformer。
诚然,光有MiTS-Transformer还不够。
时间序列展望,还有几个挑战:序列可能很长,相邻的样本可能很相似,考试数据可能很少。
这就好比,你想展望来岁的天气,你得看畴昔几十年的天气数据,但这些数据可能有好多重迭,并且你独一几十年的数据,考试不出一个太复杂的模子。
是以,著作里又建议了一个叫PoTS-Transformer的模子。
这个模子,在位置编码高下了功夫。
啥是位置编码呢?
简便说,即是告诉Transformer,每个数据点,在时间序列里的位置。
比如,第一个数据点,第二个数据点……
PoTS-Transformer的作念法是,把位置编码放到一个更高维的空间里,这么就能更好地处理长序列,同期又不会让模子太复杂,幸免过拟合。
这就好比,你想记取一篇著作,你不错把每个段落,齐放到一个不同的房间里,这么就能更好地记取著作的结构,同期又不会让你的大脑太拥堵。
著作里还作念了实验,用正弦波来模拟时间序列数据。
成果标明,MiTS-Transformer和PoTS-Transformer齐能有用地学习正弦波的样式。
并且,PoTS-Transformer在展望性能上,比MiTS-Transformer还要好。
这就像什么?
就像你用两种不同的次序,来学习弹钢琴。
一种次序是死记硬背,一种次序是相识乐理。
相识乐理的次序,可能一运转相比慢,但学到后头,会比死记硬背的次序,弹得更好。
是以,这篇著作想告诉我们什么呢?
我想,它想告诉我们,在时间序列展望这个边界,不要盲目追求复杂。
随机候,简便的模子,反而更好用。
并且,在作念模子的时候,要收拢问题的实质,找到最精辟的惩办决策。
当我们民风性地将原因归结为模子复杂性时,是否忽略了数据本人特质和任务的履行需求?
仅这一个实验成果,就足以证确凿特定情况下,简便模子也能胜任复杂任务。
与多半领略不同,履行情况是,在某些时间序列展望任务中,过度复杂的模子可能导致过拟合,反而不如简便模子有用。
诚然,这篇著作不是说,总共的Transformer变种,齐是没用的。
仅仅说,在作念时间序列展望的时候,要多想考,多尝试,找到最符合我方的次序。
临了,我想用著作开头的问题来终结:时间序列展望这玩意儿,到底是科技跳跃,依然在山公补丁?
我想,谜底可能介于两者之间。
既有跳跃,也有补丁。
重要在于,我们要用批判性的想维,去看待这些跳跃和补丁,不要被花里胡梢的外在所劝诱,要找到真实有用的东西。
这就像什么?
就像淘金相通。
你要有耐性,有眼神,才能从一堆沙子里文爱 porn,找到真实的金子。