Analys: Twitters crowdsourcede faktakontrollexperiment avslöjar problem

Analys

En Poynter-analys fann att mindre än hälften av Birdwatch-användarna inkluderar källor och många faktakontrollanteckningar innehåller partisk retorik.

En 14 februari-version av Twitters Birdwatch-algoritm förstärkte vissa anteckningar med vilseledande information.

Den 5 februari flaggade Twitter ett inlägg från den kontroversiella YouTubern Tim Pool som sa att det amerikanska presidentvalet 2020 var falskt. Plattformen noterade att anspråket ifrågasattes och stängde av engagemang 'på grund av risk för våld.'

Men på Fågelklocka , plattformen för sociala medier experiment med crowdsourced faktagranskning , sade användare överväldigande att tweeten inte var vilseledande, enligt en analys av Twitter-data den 14 februari. Och de flesta Birdwatch-användare angav i verktyget att de tyckte att dessa anteckningar som stödde avfärdade påståenden var användbara och informativa.

'Enligt den officierande (sic) källan till TIME fanns det en välorganiserad grupp av hemliga deltagare i en skuggorganisation som låter som en kabal som arbetade tillsammans för att styra valet till Joe Bidens fördel', står det i en anteckning. Medan användaren inkluderar en länk till en artikel i Time Magazine som verkligen använder ord som 'kabal' och 'konspiration', sammanhanget för stycket - att mäktiga grupper arbetade bakom kulisserna för att skydda valintegriteten - går förlorad.

De Algoritm för fågelskådning , som syftar till att få fram användbara anteckningar, tilldelade att 'faktakolla' ett hjälpsamhetspoäng på 0,68 - det högsta av anteckningarna på tweeten, strax utanför de 10 % av de anteckningar som anses av algoritmen 'bedömda som användbara' från och med 14 februari. Användbara anteckningar utgjorde cirka 7 % av de 2 695 i denna analys och färre än två tredjedelar av dem innehåller en källlänk som inte är en annan tweet.

Den 17 februari Twitter ändrade sin algoritm och anteckningar på Pool-tweet är inte längre klassade som användbara, även om de finns fortfarande listade under inlägget . Före denna förändring fanns det en lägre tröskel för att anses vara hjälpsam - bara 0,5 jämfört med den nya 0,84 cutoff - och anteckningar behövde bara tre betyg för att vara igång för att anses vara användbara, prioriterade i ordning och markerade med en blå lapp.

Nu måste en anteckning få fem betyg för att få in den tweeten ny 'bedömd hjälpsam'-flik i Birdwatch . Och av de nästan 2 700 anteckningarna i plattformens databas uppfyllde 126 den nya tröskeln - det är mindre än 5%. Tre fjärdedelar av nya 'betygsatta hjälpsamma' anteckningar innehöll en källa utanför Twitter.

Det är en läglig illustration av ett av problemen som Birdwatch-modellen står inför: Kan en algoritm som matas av en till synes slumpmässig grupp människor någonsin exakt 'bedöma' sanningen?

Birdwatch, i sin pilotfas med lite mer än 1 000 användare, tillåter deltagarna att flagga tweets som vilseledande och lägga till en anteckning som citerar en källa och/eller förklarar sammanhanget till varför det kan vara vilseledande. Sedan kan Birdwatch-användare rangordna dessa anteckningar baserat på hjälpsamhet (efter det tar algoritmen över).

Så småningom kommer alla Twitter-användare skenbart att kunna se dessa anteckningar precis under tweets, men för närvarande är de begränsade till en specifik del av webbplatsen . Fågelursanvändare kommer också så småningom att bygga upp ett rykte som kommer att ingå i hjälpsamhetsalgoritmen.

'Vårt mål med Birdwatch-piloten är att bygga ett system där alla kan bidra, och som naturligtvis lyfter information som människor tycker är användbar', sa Twitters vicepresident för produkt Keith Coleman i ett mejl. 'Vi tror att öppenhet i vem som kan bidra är viktigt, och att genom input från en mångsidig grupp kan de mest användbara anteckningarna lyftas.'

Men en titt på systemet som det är nu avslöjar utmaningar som faktagranskare har tagit upp om Birdwatch: brist på faktakontrollexpertis bland användare, svårigheten att skapa en algoritm som på något sätt kommer att visa upp de mest välrenommerade användarnas användbara anteckningar och frågor om partiska motiv hos användare.

'Jag är inte förvånad över dessa resultat med tanke på den polariserade karaktären hos sociala medieplattformar och vanliga användares tveksamhet att ge feedback till sådana förfrågningar som erbjuds av plattformar, medan motiverade användare från båda sidor av gången ser plattformar som slagfält för att marknadsföra sina berättelser över andra, säger Baybars Örsek, chef för International Fact-Checking Network.

En majoritet av de mest produktiva Birdwatch-användarnas anteckningar markerar tweets som är kritiska till högern som 'vilseledande' och de som är kritiska till vänstern som 'inte vilseledande.' (Till exempel markerade användaren en tweet som säger ' Team Biden är milda mot Kina ' från senator Ted Cruz and the Pool tweet som 'inte vilseledande'; medan en Newsweek-artikel om högerextrema och GameStop-sagan och en tweet att knyta president Donald Trump till Capitol-upploppet markerades som 'vilseledande' och 'skadligt.') Och mindre än en femtedel av användarens 82 anteckningar innehåller en källa, varav flera är andra tweets. (Denna Birdwatch-användare svarade inte på en begäran om en intervju.)

Coleman sa att Birdwatch kan uppmuntras att överväga anteckningar som kommer från en 'mång uppsättning bidragsgivare.' Vidare är klassificeringssystemet den främsta drivkraften bakom plattformen

'Vi tror att dessa kommer att belöna och stimulera bidrag som många människor tycker är värdefulla, och ta itu med risken för att en specifik grupp eller ideologi tar över Birdwatch,' sa Coleman. 'Detta är något vi kommer att arbeta aktivt med under hela pilotprojektet.'

Och faktiskt, de anteckningar som algoritmen rankades som de mest användbara efter ändringarna den 17 februari visar mer solid inköp och mindre partisk retorik än iterationen från bara en dag tidigare. Men att ändra en algoritm för ett pilotprogram med 1 000 användare och färre än 2 700 anteckningar är en sak, att ändra en algoritm när Birdwatch är tillgänglig för alla användare är en annan - och vem vet om effektiviteten av algoritmen kommer att hålla i sig när användarna börjar hälla in i plattformen, och kanske replikerar beteendet hos några av de mest produktiva pilotdeltagarna.

'Vi har för närvarande ingen specifik tidslinje för skalning, eftersom vi arbetar för att lära oss så mycket som möjligt och iterera medan piloten är liten,' sa Coleman. 'Vi planerar att skala upp eftersom vi kan göra det på ett säkert sätt och när det kan hjälpa till att förbättra inlärningen.'

Ändå, som med anteckningarna under Pool-tweet, finns det exempel på partisan eller vilseledande information fortfarande synliga som vanliga anteckningar.

Fyra av de fem mest aktiva användarna, som står för mer än 10 % av de totala anteckningarna, har liknande aktivitet som den mest produktiva användaren. En av dem hävdar att Jeffrey Epsteins död aldrig bedömdes som ett självmord. Den näst mest produktiva fågelskådaren citerar dock en källa i varje anteckning, inklusive länkar från Världshälsoorganisationen och FactCheck.org .

Ingen av de 10 bästa användarna, enligt deras Twitter-bios, är professionella faktagranskare eller journalister.

'Faktakontroll är faktiskt hårt arbete eftersom det är mentalt krävande', sa PolitiFacts chefredaktör Angie Holan i ett mejl. 'Du måste verkligen koncentrera dig och driva igenom mental tröghet för att identifiera påståenden och sedan brainstorma sätt att avslöja eller verifiera dem. Sedan måste du fortsätta med att söka och sedan skriva upp fynden. Det är inte en dag på stranden, rent ut sagt. Och om en faktagranskare har en partisk motivation, gör det en noggrann och jämn insats ännu svårare.”

Trots sina problem flaggar Birdwatch felaktig information som traditionella faktagranskare kan missa eller välja att inte kontrollera på grund av risk för skada - vilket kan hjälpa till att fylla några luckor i digital desinformation. Under game stop saga , desinformation om företagets aktie spred sig snabbt över plattformar.

Snopes och PolitiFact betygsatte inte påståenden angående GameStop, medan Lead Stories betygsatt ett Reddit-inlägg. Men på Birdwatch flaggade den högst rankade anteckningen - med hjälpsamhetspoängen 1,00 - en vilseledande tweet om Reddit, där samtal om aktien ägde rum. Det fanns cirka 50 anteckningar om Reddit, GameStop och investeringsappen Robinhood, där en stor volym av handel ägde rum tidigare denna månad.

Och Birdwatch-användare flaggade korrekt ett konto som påstod sig tillhöra Virginia Sen. Amanda Chase som falskt, efter det twittrade , '... Vi har ett drogproblem i Virginia, och legalisering av marijuana kommer bara att leda till fler marijuanaöverdoser och dödsfall ...'

Crowdsourcing kan göra professionella faktagranskares liv enklare genom att upptäcka felaktig information, sa Örsek.

Coleman sa att Twitter är engagerat i att upprätthålla transparens – vilket gjorde denna analys möjlig – och att införliva input från experter om plattformens framtid.

'Från att arbeta med en inbäddad teammedlem från University of Chicago Center for RISC , för att vara värd för feedbacksessioner med reportrar och forskare, arbetar vi med att utnyttja den enorma mängd expertis och kunskap som finns bortom Twitter, sa han.

Holan och Örsek rekommenderar incitament och utbildning för Birdwatch-användare, samt att anställa professionella faktagranskare för att vetera högt uppsatta anteckningar.

'Men jag är ganska tveksam till teknikföretag som tror att deras användare kommer att moderera innehåll gratis för dem,' sa Holan. 'De flesta användare ser det inte som sin uppgift att hjälpa plattformarna att driva sina egna företag.'

Ta Reda På Kompatibilitet Med Stjärntecken

Analys: Twitters crowdsourcede faktakontrollexperiment avslöjar problem

Analys

En Poynter-analys fann att mindre än hälften av Birdwatch-användarna inkluderar källor och många faktakontrollanteckningar innehåller partisk retorik.