隨著人工智能在我們?nèi)粘I钪械钠占?,作為底層?shù)據(jù)服務(wù)的數(shù)據(jù)采集標注行業(yè)也得到了充分的發(fā)展,數(shù)據(jù)采集是數(shù)據(jù)采集標注的第一個環(huán)節(jié),也是人工智能數(shù)據(jù)訓(xùn)練的底層服務(wù)基礎(chǔ)。
市面上常見的數(shù)據(jù)采集方式分為多種種類,在技術(shù)角度而言,數(shù)據(jù)采集主要有客戶端埋點和服務(wù)端埋點兩種方式。
一、客戶端埋點
客戶端埋點主要通過在終端設(shè)備內(nèi)嵌入埋點功能模塊,通過模塊提供的能力采集客戶端的用戶行為,并上傳回行為采集服務(wù)端。
常見的客戶端埋點方式有3種:全埋點、可視化埋點和代碼埋點。
1、全埋點
將終端設(shè)備上用戶的所有操作和內(nèi)容都記錄并保存下來,只需要對內(nèi)嵌SDK做一些初始配置就可以達到收集全部行為的目的。
這也經(jīng)常被稱為無痕埋點、無埋點等。
2、可視化埋點
將終端設(shè)備上用戶的一部分操作,通過服務(wù)端配置的方式有選擇性地記錄并保存。
3、代碼埋點
根據(jù)需求來定制每次的收集內(nèi)容,需要對相應(yīng)的終端模塊進行升級。
<*********>優(yōu)略勢分析*********>
對于這3種埋點方式,企業(yè)可以根據(jù)實際業(yè)務(wù)場景來判斷和選擇。
它們的優(yōu)劣勢對比如下。
1、全埋點適合于終端設(shè)計標準化且有統(tǒng)一系統(tǒng)接口的情形。
它利用系統(tǒng)提供的事件捕獲機制,在對象事件發(fā)生時調(diào)用埋點工具中的指定處理邏輯,對該事件相關(guān)的信息進行記錄。
這種方法的優(yōu)點是不用頻繁升級,在一次性驗證并發(fā)布后,就可以獲取終端的全量行為數(shù)據(jù)。
當突然發(fā)現(xiàn)需要對某個對象進行分析時,可以直接從歷史數(shù)據(jù)中找到所需的數(shù)據(jù),而不需要再次進行數(shù)據(jù)收集。
其缺點是數(shù)據(jù)存儲、傳輸?shù)某杀据^高,有些當前不用的數(shù)據(jù)也需要保留。
2、可視化埋點適合于需要考慮存儲和帶寬成本的情形,可通過后端配置來降低對象事件行為采集數(shù)量,實現(xiàn)機制和全埋點類似。
其優(yōu)點是發(fā)布后不需要頻繁升級,成本比全埋點低,并且能夠靈活配置;缺點是當需要對某一個對象進行分析,但發(fā)現(xiàn)其數(shù)據(jù)沒有采集時,需要重新配置并等數(shù)據(jù)采集完成后再進行后續(xù)工作,容易影響業(yè)務(wù)進度。
3、代碼埋點主要適合于終端設(shè)計非標準化、事件行為需要通過代碼來控制的情形。
其優(yōu)點是靈活性強,針對復(fù)雜場景可以單獨設(shè)計方案,對存儲、帶寬等可以做較多的優(yōu)化;缺點是=-成本高,維護難度大,升級周期較長。
二、服務(wù)端埋點
除了客戶端埋點,常見的線上埋點還有服務(wù)端埋點,即通過在系統(tǒng)服務(wù)器端部署相應(yīng)的數(shù)據(jù)采集模塊,將采集到的數(shù)據(jù)作為行為數(shù)據(jù)進行處理和分析。
服務(wù)端埋點常見的形態(tài)有HTTP服務(wù)器中的*********,即所有的Web服務(wù)的日志數(shù)據(jù)。
前面提到的客戶端的3種埋點方式,常見的簡化實現(xiàn)方案一般也會配合HTTP服務(wù)器中的*********來落地,但有時為了更好地融合,會定制一些服務(wù)端的SDK,用于捕獲服務(wù)端系統(tǒng)中無法通過常規(guī)訪問獲取的數(shù)據(jù)信息,如內(nèi)部處理耗時、包大小等數(shù)據(jù)。
服務(wù)端埋點的優(yōu)點很明顯,當需要獲取的用戶行為通過服務(wù)端請求就可以采集到或者通過服務(wù)端內(nèi)部的處理邏輯能獲取時,采用這種方式來收集用戶行為數(shù)據(jù)能夠降低客戶端的復(fù)雜度,避免一些信息安全問題。
但其弊端也很明顯,有些用戶行為不一定會發(fā)出訪問服務(wù)端的請求,這種方式就無法采集這部分數(shù)據(jù)。
因此,服務(wù)端埋點一般會和客戶端埋點結(jié)合使用,相互補充,以完成全部目標用戶行為的采集。
https://www.*********.com