“大數(shù)據(jù)”、“人工智能”和“物聯(lián)網(wǎng)”是醫(yī)療行業(yè)使用越來越頻繁的術語。
“人工智能(AI)”一詞誕生于1956年,但近年來,由于數(shù)據(jù)量的顯著增加、先進算法使機器能夠像人類一樣“思考、工作和反應”,以及計算能力和存儲能力的提高,“人工智能”一詞的受歡迎程度急劇上升。
大數(shù)據(jù)的概念出現(xiàn)在20世紀90年代,它描述的數(shù)據(jù)集太大或太復雜,即使是在低延遲的情況下,傳統(tǒng)數(shù)據(jù)庫或數(shù)據(jù)處理應用軟件也無法在合理的時間內(nèi)捕獲、管理和處理數(shù)據(jù)。
促成大數(shù)據(jù)積累的是物聯(lián)網(wǎng)(IoT),這個術語自1999年首次被用作“物聯(lián)網(wǎng)”(Internet for Things)以來一直在演變,當時射頻識別(RFID)是物聯(lián)網(wǎng)的概念核心。
如今,物聯(lián)網(wǎng)涵蓋了與互聯(lián)網(wǎng)相連的一切,包括傳感器、智能手機、醫(yī)療設備、可穿戴設備等,所有這些都是實時采集和上傳的,健康相關大數(shù)據(jù)也在快速積累。
近日,創(chuàng)新咨詢與基金管理服務公司Healthbox發(fā)布了《利用大數(shù)據(jù)》(Harnessing Big Data)報告,報告旨在研究醫(yī)療行業(yè)與大數(shù)據(jù)的關系。主要內(nèi)容有:
背景:大數(shù)據(jù)是什么?
前景:如何利用大數(shù)據(jù)?
分析:利用大數(shù)據(jù)需要注意什么?
應用程序:大數(shù)據(jù)的現(xiàn)實應用
以下是動脈網(wǎng)為您編譯的該報告的主體內(nèi)容:
背景:大數(shù)據(jù)是什么?
大數(shù)據(jù)簡史
隨著時間的推移,“大數(shù)據(jù)”、“物聯(lián)網(wǎng)”和“人工智能”這三個詞被分別創(chuàng)造出來。今天,它們在快速發(fā)展的技術世界中形成了獨特的聚合,影響著我們收集、感知和分析健康相關數(shù)據(jù)的方式。
1956年:“人工智能”(AI)一詞由計算機科學家John McCarthy首創(chuàng),他曾就此問題舉行過學術會議。
1990-1999年:大數(shù)據(jù)作為一個術語出現(xiàn),用來描述對于傳統(tǒng)數(shù)據(jù)庫來說太大或太復雜而無法處理的數(shù)據(jù)集。
1999 – 2008年:物聯(lián)網(wǎng)的概念在這一時期發(fā)展起來,最初是指通過射頻識別技術獲取數(shù)據(jù)。
今天,人類在人工智能方面的能力正在迅速擴張,人工智能是收集和分析每秒通過物聯(lián)網(wǎng)創(chuàng)建的大量數(shù)據(jù)的關鍵組成部分,包括所有連接到互聯(lián)網(wǎng)的數(shù)據(jù)。
醫(yī)療領域的大數(shù)據(jù)機遇看似無窮無盡,但也存在許多值得思考的問題:
我們收集哪些類型的數(shù)據(jù)?
這個數(shù)據(jù)的來源是什么?
我們已經(jīng)擁有的數(shù)據(jù)中存在哪些空白,我們?nèi)绾翁钛a這些空白?
目前這些數(shù)據(jù)如何被使用,潛在的其他應用程序是什么?
我們?nèi)绾伪Wo這些數(shù)據(jù)以防止網(wǎng)絡入侵、數(shù)據(jù)安全損失和其他形式的網(wǎng)絡安全風險?
大數(shù)據(jù)的四個“V”
醫(yī)療大數(shù)據(jù)的四個“v”包括容量(volume)、速度(velocity)、多樣性(variety)和有效性(validity)。由于電子病歷(EMR)的廣泛采用、精準醫(yī)學決定因素的加速發(fā)現(xiàn),以及可穿戴生物傳感器的迅速發(fā)展,個人數(shù)據(jù)來源的增長,導致了健康數(shù)據(jù)的絕對數(shù)量激增。
收集和利用大數(shù)據(jù)
傳感器、智能手機、醫(yī)療設備、可穿戴設備等實時采集和上傳信息的進化,導致了大數(shù)據(jù)的積累。正在收集的數(shù)據(jù)具有數(shù)量大、速度快和多樣性的特點,為利用和確保其有效性,使其造福于人類,大數(shù)據(jù)向基于證據(jù)的精準醫(yī)學提出了挑戰(zhàn)。
除了傳統(tǒng)的生物健康測量方法,還有大量的社會人口學、地理位置學和非醫(yī)學元數(shù)據(jù),這些元數(shù)據(jù)都有意義地相互作用,以確定個人或多人的健康狀況。
在傳統(tǒng)數(shù)據(jù)系統(tǒng)之間創(chuàng)建互操作性的挑戰(zhàn)多種多樣。
如今,我們需要跨不同的筒倉數(shù)據(jù)源集成更廣泛的數(shù)據(jù)。如果要讓大數(shù)據(jù)有意義地塑造護理決策,關鍵是要確定所有這些不同測量方法的有效性和準確性、它們的派生推論以及我們從這些數(shù)據(jù)中推斷出的可操作結(jié)論。
前景:如何利用大數(shù)據(jù)?
在向基于價值的醫(yī)療服務轉(zhuǎn)型過程中利用大數(shù)據(jù)
盡管這可能看起來令人生畏,但這四個“v”實際上很好地契合了醫(yī)療服務轉(zhuǎn)型的需求,即從按服務收費的行業(yè)向以信息為基礎,以及價值驅(qū)動的醫(yī)療服務提供模式轉(zhuǎn)變。獲取用于描述人群特征的全面數(shù)據(jù),以及用于根據(jù)個人需求定制決策的精確數(shù)據(jù),將至關重要地為醫(yī)療策略提供信息并確定優(yōu)先級,指導針對特定個人的精確醫(yī)療決策。
對預防干預的日益重視,對不斷演變的患者病情的治療的不斷個性化,以及在整個患者過程中護理的協(xié)調(diào),使得獲取、解釋和持續(xù)分析患者病情變得十分必要。它還需要對大量數(shù)據(jù)進行及時的處理。
健康的社會決定因素是健康結(jié)果的重要潛在驅(qū)動力,因此需要綜合各種各樣的數(shù)據(jù)輸入以做出可采取行動的決定,這種數(shù)據(jù)輸入正在迅速擴大。但是,如何從這些數(shù)據(jù)中形成可執(zhí)行的決策?
從海量數(shù)據(jù)中提取信號
人類無法衡量現(xiàn)有的海量數(shù)據(jù),也無法獨自得出有意義的結(jié)論。谷歌腦人工智能研究小組(Google Brain AI Research Group)產(chǎn)品經(jīng)理、醫(yī)學博士Lily Peng指出,雖然人類智能最適合整合少量非常“大影響”的因素,但人工智能尤其擅長梳理和識別大量非常“小影響”或模糊因素的模式。這是機器學習和人工智能作為人類智能不可或缺的合作伙伴可以發(fā)揮的補充作用,它們可以幫助醫(yī)療保健提供者應對來自各個方向的海量、快速和多樣的數(shù)據(jù)。
從這些海量的數(shù)據(jù)中得出有效的結(jié)論,需要重新設計現(xiàn)有的決策過程,將機器學習與人類直覺和領域?qū)I(yè)知識結(jié)合起來,做出有效的臨床決策,提高護理價值。如果適當考慮到將其納入護理提供和決策的不斷發(fā)展的模式中,大數(shù)據(jù)和人工智能可以成為有益變革的有效推動者和催化劑,而不僅僅是給執(zhí)業(yè)臨床醫(yī)生工作流程增加不必要的復雜性。
病人的私人臨床醫(yī)生作為真理的單一來源的日子一去不復返了。無論是談論心臟病發(fā)作、中風、創(chuàng)傷、癌癥,還是復雜的急性后護理,決策都是在一組人的共同考慮下做出的,更不用說患者自己的選擇和對其病情的研究了。
當我們從應用廣泛的人群規(guī)范和通用的護理標準,轉(zhuǎn)向根據(jù)特定個體的定制需求定制護理時,將需要人工智能分析支持的廣泛經(jīng)驗數(shù)據(jù)來定義與給定患者相關的個體規(guī)范。雖然在確定的人群中,進行隨機對照臨床試驗的目的是控制混雜因素,并在實驗環(huán)境中隔離測試干預的影響,但實際的測試對象很少能準確地反映現(xiàn)實世界中遇到的個體的廣泛和多樣性。
從實用主義的角度來看,我們不可能根據(jù)現(xiàn)實世界中所有細微差別和個性化的遭遇,來設計直接提供護理的試驗。因此,人工智能對大數(shù)據(jù)的解析和分析將在指導個性化現(xiàn)實決策方面發(fā)揮重要作用。
利用大數(shù)據(jù)進行臨床決策
如果大數(shù)據(jù)和人工智能要有效地支持臨床決策,就需要克服四個潛在的挑戰(zhàn):
1. 消除數(shù)據(jù)收集中的偏差;
2. 承認匿名性和特殊性之間的內(nèi)在沖突;
3.對收集到的數(shù)據(jù)進行有意義的驗證;
4. 理解潛在的因果關系。
分析:利用大數(shù)據(jù)需要注意什么?
1、克服數(shù)據(jù)收集中的偏見
醫(yī)療數(shù)據(jù)雜亂無章。在最基本的層面上,盡管我們努力規(guī)范醫(yī)學術語、診斷編碼等,但在個體提供者如何描述、概念化和闡明他們對患者的觀察方面存在很大差異。通常,對所有數(shù)據(jù)進行的探索、發(fā)現(xiàn)和分析,其有效性和價值僅與底層數(shù)據(jù)集的清晰性和有效性相同。這些問題只與收集的數(shù)據(jù)的數(shù)量和速度有關,必須對這些數(shù)據(jù)進行解釋。
標準化、語義分類和公認的概念本體是“數(shù)據(jù)清理”中的一些必要步驟,在大數(shù)據(jù)集準備好接受人工智能技術的有用分析之前,這些步驟是為大數(shù)據(jù)集制定標準所必需的。
除了這些考慮之外,每個研究者對大數(shù)據(jù)的不同也產(chǎn)生了固有的偏見。偏差可以包括評估的數(shù)據(jù)類別以及如何收集這些數(shù)據(jù)(例如,對哪些人群進行了抽樣,以及使用了哪些抽樣工具,可以有選擇地包括或排除數(shù)據(jù)集中的顯示)。
假設高維數(shù)據(jù)的威力存在于數(shù)據(jù)中未公開的混雜因素下。不幸的是,這一假設遠未成為人們放棄的結(jié)論,并對人工智能技術從大數(shù)據(jù)中得出的結(jié)論的有效性構(gòu)成了威脅。例如,如果人們不考慮度量一個變量,而該變量是期望結(jié)果的重要驅(qū)動因素,那么將明顯的結(jié)論應用于與混淆者的協(xié)變量關系發(fā)生變化的情況,則可能是不正確和具有誤導性的。
這觸及了人類領域經(jīng)驗與人工智能交叉的根源,以及人類大腦處理的“大影響”,而機器正在檢測的小影響因素可能會忽略這些“大影響”。
2、匿名性與特異性不一致
從理論上講,利用大數(shù)據(jù)力量的過程中,應該允許通過匿名化個人數(shù)據(jù)點來源,來保護個人身份和健康信息的安全?,F(xiàn)實世界中的大數(shù)據(jù)的價值在于,它可以被分析,從而為指導個體患者的個性化精準醫(yī)療決策提供洞見。大數(shù)據(jù)的廣度包含了元數(shù)據(jù)元素,這些元數(shù)據(jù)元素有潛力實現(xiàn)個人身份的去匿名化。
最終,在開放共享大數(shù)據(jù)所產(chǎn)生的價值與重新識別數(shù)據(jù)源的有限風險(可能侵犯患者隱私)之間,存在一種平衡。人們必須采取適當?shù)念A防措施進行結(jié)構(gòu)分析,以避免對患者身份進行反向工程(Reverse Engineering或Back Engineering)。
然而,值得注意的是,共享開放數(shù)據(jù)的好處超過了對個人不利因素的重新識別。社會將不得不在共享和開放獲取數(shù)據(jù)的好處,以及通過對分割的數(shù)據(jù)進行反向工程來重新識別個人的有限但真實的可能性之間,進行道德權衡。解決這些問題需要的是人類的智慧,而不是人工智能。
3、創(chuàng)建可證明性
我們有理由假設,對患者及其病情進行更有力的高維描述,將有助于更好地理解驅(qū)動特定疾病過程的環(huán)境。然而,以這些數(shù)據(jù)和分析為指導的有效干預措施能否降低成本、提高滿意度并改善消費者體驗,還有待證明。
因此,我們必須將數(shù)據(jù)、人工智能獲取的知識和知情的臨床決策集成到臨床流程和工作流中,并將其緊密地交織在一起,以推動患者護理的潛在效益。我們還需要進行適當?shù)慕Y(jié)構(gòu)化臨床試驗,以證明數(shù)據(jù)驅(qū)動的護理過程帶來的增量效益足以證明這些決策所產(chǎn)生的任何成本都是合理的。
4、相關性并不意味著因果關系
定義因果關系對于開始將數(shù)據(jù)中觀察到的模式轉(zhuǎn)換為知情干預至關重要,在知情干預中,假定的因果變量可以被改變,以實現(xiàn)擬議的結(jié)果。在這個過程中,最重要的是確保被分析的數(shù)據(jù)不會遺漏可能與測量結(jié)果有因果關系的混雜因素。領域?qū)<液腿祟愔庇X總是需要與人工智能協(xié)同工作,以確認沒有隱藏的混雜因素。
另一方面,高維數(shù)據(jù)提供了識別盲點的機會,而這些盲點是人類大腦沒有考慮到的,它們可能與人類領域?qū)I(yè)知識中固有的偏見,以及啟發(fā)式假設導致的結(jié)果有因果關系。機器的使用可以幫助人類揭示這些未發(fā)現(xiàn)或未預料到的變量。
在智能軟件能夠處理大數(shù)據(jù)集并被編程成像人類一樣思考之前,構(gòu)造良好的隨機對照試驗,在過去和現(xiàn)在都被當做用來避免隱藏混雜因素的重要方法。然而,現(xiàn)實世界中的大數(shù)據(jù)并不總是被劃分為干預組和對照組,而且往往存在巨大的差距。隨機對照試驗或隊列研究并不總能解決謎題中缺失的那一塊。
人工智能和機器學習現(xiàn)在可以提供統(tǒng)計工具來確定測量值,以填補數(shù)據(jù)空白,并綜合構(gòu)建“控件”,以便與真實世界的經(jīng)驗進行比較。這些工具提供了一條前進的道路,以便在沒有干預的情況下,將來自給定干預的觀察結(jié)果與預期結(jié)果進行比較,這樣我們就可以模擬允許關于確定性和因果關系的假設的測試范式。
應用程序:大數(shù)據(jù)的現(xiàn)實應用
人工智能在研究中的潛在應用
GNS Healthcare的董事長、首席執(zhí)行官兼聯(lián)合創(chuàng)始人Colin Hill設想了一個因果機器學習過程,該過程首先通過檢查高維數(shù)據(jù)中的關系,推斷出潛在的因果機制。使用這些信息,“反向工程”就可以在模擬場景環(huán)境中測試可能的因果關系。這被稱為“正向模擬”,它能使研究人員檢驗因果假設的有效性,而這些假設在現(xiàn)實世界中是不容易檢驗的。
在藥物發(fā)現(xiàn)方面, Relay Therapeutics的首席科學官兼聯(lián)合創(chuàng)始人Mark Murcko博士提出了一種理論,即如何利用藥物到靶點相互作用的正向模擬來進行潛在藥物的內(nèi)硅篩選,以獲得針對生物驗證靶點的有效性。該模擬基于數(shù)據(jù)驅(qū)動的對藥物使用時蛋白質(zhì)運動和功能變化的理解。
這些理解因果關系的方法結(jié)合了人類領域的專業(yè)知識和應用于大量數(shù)據(jù)集的人工智能,以預測篩選的化合物與疾病過程的生物靶點之間的治療相互作用。
大數(shù)據(jù)的現(xiàn)實應用
雖然將大數(shù)據(jù)應用于研究的理論機會很多,但人工智能和機器學習已經(jīng)在醫(yī)療服務領域掀起了波瀾。以下重點介紹利用大數(shù)據(jù)進行患者分流、診斷成像和預測實踐變化、不良結(jié)果和治療影響的驅(qū)動因素的公司。
例如,Twiage正在處理急診醫(yī)學,幫助醫(yī)院跟蹤指標、分配資源和改善反應時間,以顯著影響中風、心臟病發(fā)作、敗血癥和創(chuàng)傷患者的預后。Buoy Health利用大數(shù)據(jù)和人工智能直接針對患者進行疾病分類,并將他們引導到合適的護理環(huán)境。患者可以使用在線應用程序與機器人聊天,描述他們的癥狀,并通過一系列類似于他們在物理護理環(huán)境中體驗的問題進行指導。
隨著醫(yī)學成像技術的進步和需求的增加,Zebra medical Vision旨在幫助放射科醫(yī)生更快地識別成像結(jié)果中的異常情況。該公司的人工智能算法可以識別醫(yī)療狀況,充當?shù)谝唤M“眼睛”,提高放射科醫(yī)生的工作速度。
GNS Healthcare將上述反向工程和正向模擬理論付諸實踐,利用大數(shù)據(jù)和人工智能在臨床試驗中運行,了解藥物在現(xiàn)實世界中如何發(fā)揮作用,并幫助確定針對個體患者的最佳干預方式和干預時機。
Agathos為衛(wèi)生系統(tǒng)提供了一個分析平臺,可以收集見解并向提供者提供反饋,使他們能夠看到患者數(shù)據(jù)中的個性化和聚合趨勢,幫助告知人員配置、舍入前處理和指導需求,以及其他改進臨床工作流程和患者結(jié)果的需求。
PhysIQ和Pascal Metrics是針對患者的實時監(jiān)控解決方案,它們使用機器學習來檢測患者病情的細微變化,無論是急性發(fā)作后還是住院期間,并提醒其護理團隊采取必要行動。
結(jié)論
那么,我們?nèi)绾卫么髷?shù)據(jù)與人工智能的關系來推動醫(yī)療創(chuàng)新呢?
大數(shù)據(jù)新應用的增長速度和數(shù)據(jù)本身一樣快。隨著我們不斷開發(fā)將大數(shù)據(jù)融入人工智能的新方法,人們意識到以下需求至關重要:
1、“清除”所有收集到的可能存在偏見的數(shù)據(jù);
2、標準化收集或統(tǒng)一數(shù)據(jù)的方法;
3、同意正確使用匿名信息;
4、避免落入相關性與因果關系的陷阱。
為了充分利用人工智能的力量,我們必須接受與計算機協(xié)同工作。通過這種方式,我們既能從計算機的處理能力中獲益,也能從人類智能中獲益,從而充分利用大數(shù)據(jù)進行變革。
這些觀點得到了英偉達CEO、總裁兼聯(lián)合創(chuàng)始人黃延森的贊同,他也強調(diào)了“數(shù)據(jù)培訓”的重要性,即從數(shù)字體驗中學習的過程。與此同時,機器學習算法的能力正在迅速提高,人類必須學會更聰明地工作,并適應“新常態(tài)”,讓機器自動化商品化的任務,并解放提供者,讓他們能夠執(zhí)行人道關懷的人工任務。
通過這種方式,人類和人工智能可以協(xié)同工作,在數(shù)據(jù)分析、臨床決策和醫(yī)療創(chuàng)新方面達到新的高度。