SEMINAR OM LENKING AV NOMINATIVE DATA

Øystein Reigem

29.-31.10. 1990 ble det holdt et Seminar om lenking av nominative data ved Riksarkivet, Oslo. Arrangør var Gunnar Thorvaldsen. Seminaret var lukket med inviterte deltakere. Totalt deltok 16 personer. En bevilgning fra RHFs informasjonsteknologiprogram dekket utgiftene til seminaret, inkludert reise- og oppholdskostnadene for de tilreisende.

LENKING OG NOMINATIVE DATA

Nominative data vil si kildedata hvor enkeltindivider lar seg identifisere ved navn. Typiske historisk-nominative data er folketellinger, kirkebøker og emigrantprotokoller.

Lenking vil si å kombinere informasjon om enkeltpersoner eller grupper av personer fra ulike kilder eller fra ulike innførsler i samme kilde, for dermed å kunne rekonstruere de enkelte individers eller gruppers livsløp. Eksempelvis vil en historiker kunne ønske å rekonstruere livsløpet for de enkelte personer i et sogn ut fra opplysninger i kirkebøker, folketellinger, emigrantprotokoller, matrikler, osv. Et beslektet problem er kobling, der en ønsker å finne relasjoner mellom ulike personer, så som slektskapsforhold.

SEMINARET

Seminaret tok utgangspunkt i det arbeidet som gjøres på flere felter i Norge. Hovedsiktemålet var imidlertid å hente inn kunnskaper og impulser utenfra for å oppdatere historikere og informatikere mht status på området internasjonalt. Nøkkelpersonen i så måte var Gérard Bouchard fra SOREP, Centre Interuniversitaire de Recherches sur les Populations, Universit‚ du Qu‚bec … Chicoutimi, Canada. Ved SOREP samarbeider tre universiteter i Quebec-provinsen. Her anvender en avanserte teknikker for automatisk lenking, en legger opp data i relasjonsdatabaser, og forskningen er tverrfaglig med et sterkt innslag av sosialhistorie. Bouchard er direktør for programmet, og sammen med professor Hans Christian Johansen fra Historisk Institut, Odense Universitet, fungerte han som hovedforeleser på seminaret.

Første dag var ment som en introduksjon til temaet lenking. Fokus var på igangværende lenkingsprosjekter i Norge og Norden. Dagen ga en bakgrunn for seminarets mer internasjonalt orienterte del. Andre dag ble innledet av Johansen, og så var Bouchard gitt resten av dagen. Bouchard fortsatte tredje dag, og seminaret ble avsluttet med en paneldebatt.

Jeg konsentrerer meg om Bouchard og Johansens redegjørelser for lenkingsproblematikken og deres syn på hvordan problemet best angripes. Et tema som bare indirekte berøres, er hvordan SOREP driver sin virksomhet, noe som kunne fortjent en egen artikkel. Men aller først er det på sin plass med en rask innføring i temaet lenking:

LENKING

Som et enkelt eksempel på lenking kan en tenke seg en kombinering av individopplysninger fra en folketelling og en emigrasjonsprotokoll. Da må en ta for seg hver innførsel i den ene kilden og prøve å finne en innførsel for samme person i den andre.

For den uinnvidde kan dette høres ut som en likefram sak, men ofte er det vanskelig eller umulig å avgjøre om to innførsler gjelder samme individ. Historiske kilder inneholder mange feil, unøyaktigheter og utelatelser. Eksempelvis kan det i navneopplysningene om en og samme person være store variasjoner fra kilde til kilde og fra innførsel til innførsel. Et annet eksempel på en problematisk opplysningstype er alder, som ofte er svært upålitelig. Det at kildene gjerne er svært spredt i tid, kompliserer også lenkingen.

I sitt innlegg kom Eli Fure fra Avdeling for historie, UiO, med en del konkrete eksempler på feil og problemer i et kildemateriale hun arbeidet med. Hun hadde støtt på navnesubstitusjoner som "Monsdatter" i stedet for "Hansdatter", "Johanne" i stedet for "Johannes" og "Johan" for en person som ble døpt "Karl Anton". Overgangen fra patronymikon ("Hansen", "Hansdatter") til fast etternavn skapte mange vansker i arbeidet hennes. Navn som "Hansen" har vært begge deler. Personer med dobbeltnavn var ofte oppført med bare ett av navnene. Uekte barn var ofte problematiske, både når det gjaldt navn og andre opplysninger. En uekte datter av far kunne være ført opp som pleiedatter. Feil person kunne være ført opp som begravet. Alder var ofte feil. Dupliseringer forekom, til og med av hele familier i folketellinger og dåpsinnførsler i kirkebøker.

Lenking kan gjøres med rent manuelle metoder, og det har historikere, lokalhistorikere, bygdeforskere og slektsgranskere lenge gjort. Kanskje mer interessant er lenking med maskinelle metoder. Her finnes det to ulike hovedstrategier. Den ene er interaktiv lenking, som bringer kildene opp på dataskjermen. Lenkingsprogrammet kan gjøre analyser og komme med forslag til lenker, men avgjørelsen om hvilke lenker som virkelig skal knyttes, overlates til operatøren. Interaktiv lenking har derfor mange likheter med manuell lenking, og mange av dennes sterke og svake sider. I automatisk lenking er det programmet selv som knytter lenkene ut fra ulike kriterier.

Både ved automatisk og manuell lenking vil en måtte regne med lenkingsfeil. Selv habile (manuelle) lenkere gjør feil. Generelt er det to typer feilsituasjoner som kan oppstå - overlenking og underlenking. Overlenking vil si at det etableres flere lenker enn det er belegg for ut fra kildematerialet. Ved overlenking blir opplysninger om flere personer satt sammen til ‚n person, og en får en falske livsløp. Underlenking vil si at mange lenker som burde vært etablert, ikke blir det. Enkeltpersoner figurerer som flere personer, og med sparsomme opplysninger. I et underlenket materiale blir representativiteten i det lenkede materialet i forhold til populasjonen dårlig. Begge typer feil har negative konsekvenser for forskning på materialet.

Det er mest nærliggende å ha enkeltpersoner som lenkingsenhet, og det er da også mest brukt. Andre alternativer er grupper av personer som ektepar eller far-barn-par. Fordelen med grupper er at en får et rikere sett av lenkingskriterier. En ulempe er at de forhold en har valgt ikke alltid er stabile. I en del sammenhenger er det gunstig å bruke bosted som enhet.

Alternativ til lenking er å analysere kildemateriale med statistiske metoder på høyt abstraksjonsnivå. Slike metoder har lenge vært i bruk i historieforskningen og er fortsatt aktuelle. Vår tids historikere har imidlertid stor interesse for enkeltindividene. Forskerne er i dag opptatt av å finne ut hva som ligger bak de enkeltes valg. Som et verktøy for sosiodemografisk livsløps- og familierekonstitusjon er dermed lenking svært aktuelt for historikerne i dag.

Lenking er også aktuelt i andre fag. Innen epidemiologi og arvelighetsforskning er det gjennomført store lenkingsprosjekter.

AUTOMATISK LENKING

Ved automatisk lenking av et materiale må en bestemme hvilke kriterier en vil bruke for lenkingen. (For så vidt er det prinsipielt og metodologisk viktig å ha klare kriterier og regler ved manuell lenking også.) En velger på forhånd ut visse felt, slik som navn, fødselsår/alder, kjønn, osv, og så gjør en sammenlikninger og beregninger på disse feltene for å bestemme hvor like eller ulike kandidatene for lenking er. Resultatet av beregningene er en poengangivelse eller skåre. En høy skåre indikerer at innførslene omhandler samme individ.

For å unngå å måtte sammenlikne alle mulige par av kandidater, må materialet først ordnes, slik at sannsynlige kandidater samles i undergrupper. Det kan f.eks gjøres ved å sortere på en "standardisert" versjon av navn, slik at en tar hensyn til naturlig forekommende variasjoner. For selve sammenlikningen kan det her være illustrerende å vise kriterier og regler for "matchskåring" brukt i en britisk undersøkelse på et italiensk 1800-tallsmateriale (Kitts et. al. - se litteraturlisten). For hver variabel, så som navn, andre navn (slektninger, ektefelle), fødselsår, osv, er det ulike regler for poengberegning. Disse enkeltskårene multipliseres med hverandre for å gi den endelige skåren for de to individinnførslene:

navn

alle navn identiske:

3 poeng

noen navn samme:

2 poeng

ingen felles navn:

0 poeng

andre navn

alle identiske:

3 poeng

mangler i den ene innførselen:

2 poeng

ingen felles.

0 poeng

(utregnet) fødselsår

0-2 års forskjell:

3 poeng

3-5 år:

1 poeng

6-9 år:

0,5 poeng

10-15 år:

0,3 poeng

16-24 år:

0,2 (?) poeng

24 år:

0 poeng

kjønn

samme kjønn:

1 poeng

forskjellig kjønn:

0 poeng

yrke

samme yrke:

3 poeng

yrke innen samme hovedgruppe eller samme sosiale gruppe:

2 poeng

mangler yrkesopplysninger i den ene eller begge innførslene:

1 poeng

ulik hovedgruppe eller sosial gruppe:

0,3 poeng

Sivilstatus

identisk sivilstatus:

1,5 poeng

ulik sivilstatus, men mulig kombinasjon

1 poeng

umulig kombinasjon av sivilstatus:

0,1 poeng

Fars patronym

identiske patronym:

5 poeng

patronym mangler i den ene innførselen:

1 poeng

forskjellige patronym:

0,1 poeng

De enkelte reglene/skårene må bestemmes ved å studere materialet på forhånd, og reglene vil ikke kunne overføres direkte til et annet materialet. Før selve sammenlikningen gjøres det ofte en "standardisering" for å slå sammen naturlig forekommende stavemåter av navn, og for å formalisere andre opplysninger. Denne standardiseringen og den som gjøres for å organisere materialet i undergrupper, har ulike formål og kan være ganske forskjellige. For å vise hva standardisering av navn for sammenlikning vil si i praksis, kan vi her se eksempler på resultatet av en (noe hardhendt) navnestandardiseringsalgoritme som benyttes i et norsk prosjekt. Lars Nygaard fra Institutt for informatikk, UiO, har utviklet et interaktivt lenkingssystem, og systemet brukes av Eli Fure: Alle de følgende fornavnene blir omgjort til standardformen "EMBRET":

  Ambret            Engebrikt            Ingebreth
  Embret            Ingebert            Ingebrikt
  Engbret            Ingebredt            Ingebrit
  Engebret            Ingebret
  Engebreth            Ingebredt

Alle de følgende patronymikon blir omgjort til standardformen "PETER":

  Peders.            Pehrs.            Petersen
  Pedersd.            Pehrsd.            Peterson
  Pedersdatter            Pers.            Petters.
  Pedersen            Persd.            Pettersd.
  Pederson            Person.            Pettersen
  Peers.            Perss.            Petterson
  Peersd.            Persson            Pććrsd.
  Peerson            Peters.
  Peersson            Petersd.

HANS CHRISTIAN JOHANSEN

Hans Christian Johansen innledet seminarets andre dag med et foredrag om lenking på nordisk kildemateriale. Han startet med å reformulere tidligere deltakeres uttalelse "om vi trenger automatisk lenking" til "når vi trenger automatisk lenking".

Johansen så flere viktige ulemper med manuell (og interaktiv) lenking: Manuell lenking er arbeidskrevende. En kan ikke etterpå dokumentere hva som er gjort. Prinsippene for arbeidet kan endre seg underveis, og skjevheter introduseres i materialet.

Dokumenterbarheten av lenkingsprosessen var ellers et tema som opptok mange av seminardeltakerne. Det var bred enighet om at dette var viktig. På nyere kilder med personnummer som nøkkel er automatisk lenking en enkel prosess.

På eldre kilder, derimot, må en gå varsomt fram. En kan lett få fullstendig ulike resultat med forskjellige lenkingskriterier. Johansen illustrerte situasjonen med følgende diagram:

Ved bruk av strenge kriterier vil en få uoppdagete riktige lenker. Ved bruk av løse kriterier vil en få feilaktige lenker. Det er viktig å finne den rette balansen.

Dette var også en problemstilling som gang på gang dukket opp i løpet av seminaret. Spesielt fra de utenlandske forelesernes side ble det understreket at avveiningen måtte gjøres ut fra formålet med forskningen. Det ulike utgangspunktet for demografiske og genetisk baserte studier illustrerer dette godt: Demografen er opptatt av materialets representativitet og vil foretrekke et overlenket materiale, mens epidemiologen og arvelighetsforskeren er mer avhengig av at de enkelte lenker er pålitelige.

Antall feil vil naturlig nok avhenge av kvaliteten på materialet, noe Johansen illustrerte slik:

Ved manuell lenking på godt materiale vil en gjerne havne rundt midten av kurven, og kanskje med noe bedre resultat, dvs færre feil av begge typer.

Siden automatisk lenking er raskere, og siden en har en viss mulighet til å velge hvor på kurven en ønsker å havne, ville Johansen velge automatisk lenking på et slikt materiale. På et dårlig materiale ville kvaliteten kunne bedres forholdsvis mer med en manuell lenking:

Her ville Johansen valgt en kombinasjon av automatisk og manuell lenking.

Johansen tror at automatisk lenking ville gi like god kvalitet som manuell på (dansk) materiale etter 1830, mens tidligere materiale, spesielt før 1780, ville være mer problematisk. Selv hadde han brukt metoder tilsvarende dem som Fure/Nygaard benytter, på 1700-tallsmateriale.

GÉRARD BOUCHARD

I et foredrag på seminarets andre dag gjorde G‚rard Bouchard en grundig gjennomgang av viktige sider av lenkingsproblematikk og -arbeid:

- Strategi for datainnsamling

Det er best å arbeide på hele populasjoner, som fylke (county) eller region. Ikke alle vil ha råd til kostnadene med dette, og en må da arbeide på utvalg, f.eks sogn. Flytting er problematisk for slike geografisk små utvalg. Det kan hjelpe å arbeide på flere sogn. Mange forskere er opptatt av representativitet, men et sogn er i det minste representativt for seg selv. Noen har brukt en utvalgsstrategi som har gjort at en likevel kunne arbeide på f.eks nasjonalt nivå. F.eks tok en i et prosjekt i Rouen for seg alle familier med navn på "B", og Bouchard anså prosjektet for vellykket. Ved slike bokstavutvalg er det svært viktig å kompensere for skjevheter.

- Dataevaluering

En må vite hva slags analyser som vil være mulig på de aktuelle data, og også hvilke lenkingsmetoder en kan bruke. Disse to problemstillingene er nær beslektet. Han henviste til Johansens kurver og sa at en vanligvis må velge mellom de to typene feil.

- Kontroll ved dataregistrering

Bouchard så kontroll ved dataregistrering som et viktig punkt, om enn av mindre omfang enn andre problemer. Kostnadene ved hver feil er store. Ved SOREP benytter en dobbeltregistrering og dobbelt korrekturlesing. Arbeidslagene rullerer mellom de ulike oppgavene. Både de ulike typer feil og feilraten varierer med ytre forhold, som f.eks været. Ved SOREP gir en registratorene av og til en ekstra fridag og høster gevinsten i form av en 3-4 gangers kvalitetsøkning etterpå.

- Behandling av navnevariasjon

Det finnes ulike typer navnevariasjoner. n type er stave-/ortografiske varianter. Disse endrer ikke det fonetiske og kan standardiseres før lenking. En bør ikke slå fonetisk ulike former sammen før lenking. Standardiseringen må styres av et sett spesifikke regler slik at standardiseringen blir uniform. Ved SOREP har en selv laget verktøy med 75 regler.

En annen type navnevariasjoner er fonetiske varianter, men som sagt bør håndtering av disse utsettes til selve sammenlikningen.

Den siste typen er navnesubstitusjon, hvor helt ulike navn forekommer i stedet for hverandre. Det er meget vanlig med slike substitusjoner, og en person som ikke har arbeidet med historisk-nominativt materiale vil neppe tro hvilken variasjon som faktisk forekommer.

- Nødvendigheten av å matche alle potensielle kandidater

En kan ikke sjekke alle mulige par av kandidater mot hverandre. Følgende strategi må brukes: Først lage undergrupper ("pockets") som teoretisk inneholder alle kandidater for lenking. Så må en sjekke alle mulige par innen hver undergruppe. Det er også viktig å ha en prosedyre for å få tak i dem som har unnsluppet grupperingen.

- Hvilke felt som skal brukes som identifikasjon

Noen variabler blir kriterier for lenking, og det er viktig å velge riktig. Disse variablene kan etterpå ikke brukes for analyse, for det vil gi sirkulære resonnement. Eksempelvis vil det i en lenkingsprosess der bosted inngår i lenkingskriteriene, velges lenker som gir en stabil befolkning. På et slikt materiale kan en ikke studere mobilitet. Bouchard ville selv ikke bruke yrke eller bosted som kriterium.

- Sammenligne navnedata

En må prøve å unngå underlenking. Det er viktig med et egnet verktøy for sammenlikning. Bouchard nevnte Soundex, en mye brukt standardiseringskode, men denne mente han på den ene siden var for hardhendt for navnestandardisering før lenking, og på den andre siden ga for lite variasjon ved sammenlikningen. Ved SOREP brukes en algoritme som sammenligner navn tegn for tegn med hensyntagen til utelatelser og annet. Algoritmen gir en skåre fra 0-100 som sier hvor ulike eller like navnene er.

- Garantere koherens og uniformitet av lenkene

En må sikre at lenkingen følger samme mønster for hele materialet, og at en nytter samme valg av "cutoff-point", dvs skranke for hva som skal godtas som likhet. Hvis flere personer arbeider med lenkingen, kan det være vanskeligere å få et uniformt resultat. En må ha detaljerte retningslinjer. Automatisk lenking er en fordel her.

- Lenkingsmetoden må kunne løse opp i klynger

En må ha en metode for å takle tvetydigheter og ambivalens. I et materiale vil det ofte oppstå klynger ("clusters") av konkurrerende potensielle lenker. Et eksempel på en klynge er følgende, hvor opplysninger fra fire kirkebokinnførsler ikke entydig kan lenkes:

Her er det snakk om minst to personer fra to ulike giftermål (M1 og M2) og to ulike dåpsbegivenheter (B1 og B2). Muligens er M1 og B1 samme person, likeledes M2 og B2, men det er også en sterk sannsynlighet for at M1 er B2, og at det dermed er tre personer totalt. Klynger kan bli store og kompliserte og en må ha en metode for å løse opp disse. I noen tilfeller er ‚n lenke sterkest, i andre har flere lenker høyeste skåre. Det finnes to hovedfilosofier: Den ene går ut på å lage så mange lenker som mulig, og en velger den løsning som gir best skåre for klyngen totalt. Da beholder en ikke nødvendigvis de sterkeste lenkene. Den andre filosofien går ut på å beholde den sterkeste lenken. Begge filosofiene er gode, og hvilken en velger er avhengig av formålet med den senere analysen. I eksemplet over ville de to filosofiene gi ulikt resultat.

- Evt inkludere ikke-nominative felt for teknisk sjekk

Det kan være ønskelig å holde noen ikke-nominative felt (andre felt enn navnefeltene) utenfor lenkingen for å spare dem til en teknisk kontroll etterpå. Eksempler på felt som kan brukes er alder ved død og ved giftermål. Hvis en tok disse feltene med under selve lenkingen, kunne noen gode lenker bli kuttet ut, og resultatet ville bli underlenking. Her er det igjen avhengig av hva en er mest redd for - over- eller underlenking.

- Vurdere kvaliteten på lenkingsarbeidet

For å kunne vurdere kvaliteten på det endelige resultatet, må en gå til andre kilder. Det kan hende at slike kilder ikke finnes. Hvis eksterne kilder finnes, og en korrigerer materialet ut fra disse, må en være oppmerksom på faren for å introdusere skjevheter. Hvis en f.eks har data som spenner over et lengre tidsrom, vil det ofte bli flere rettinger i den nyeste delen av data. Hvis en bruker yrkesopplysninger, kan en introdusere stabilitet. Vurdering er vanskelig, kostbart og tidkrevende, men nødvendig.

- Om bruk av folketellingsdata

Folketellingsdata er ikke longitudinelle, men viser tverrsnitt av befolkningen på bestemte tidspunkt, og det er dermed mye som ikke kan leses ut av folketellingsdata. Et nytt ektepar som dukker opp i en telling kan f.eks ha giftet seg siden forrige telling, men de kan også være innflyttere. Bruk av folketellingsdata bør derfor sjekkes mot kirkebøker o.l. Alle undersøkelser av geografisk mobilitet basert på folketellingsdata, har svakheter. En har ikke kontroll mot opplysninger om dødsfall, og dermed blir omfanget av emigrasjon lett overestimert, muligens i alvorlig grad. Kjernefamilier versus enslige er også et problem. En kan lettere lenke familier enn enslige, og skjevheter introduseres. Alder i folketellingsdata er ofte feil - i mye større grad enn en utenforstående ville tro.

- Organisering av data

Det er nødvendig å strukturere data, og i dag finnes mange kommersielle databasesystemer som kan brukes. Implementering på stormaskiner er ofte tungt, og her byr personlige datamaskiner på fordeler. En kan imidlertid ikke regne med å finne det perfekte system.

- Personvern

Personvernspørsmålet kan dukke opp, gjerne avhengig av hvilket tidsrom data stammer fra. F.eks er data etter 1890 ikke tilgjengelige i England. (Michael Drake i kommentar etterpå: Situasjonen er kaotisk i England. Alle kilder unntatt folketellinger kan skaffes, men en må betale.) Som en kuriositet nevnte Bouchard et tilfelle fra Frankrike, hvor etterkommerne av en adelig familie gikk til rettssak da de følte at offentliggjøringen av opplysninger fra 1700-tallet gikk på familieæren løs.

- Noen få empiriske regler

Bouchard gikk så raskt gjennom en del viktige empiriske regler, dels som en rekapitulasjon av hva han hadde sagt tidligere:

* Unngå koding i størst mulig grad
* Standardiser ikke før lenking (dvs kun fonetisk like variasjoner)
* Ta vare på de regler som brukes ved (den automatiske) lenkingen, slik at lenkingsarbeidet kan dokumenteres
* Bevar muligheten for å endre lenker etterpå
* Ta alltid de letteste lenkene først
* Bygg en pålitelig base først ved bare å ta de sikreste lenkene. Bygg så videre på denne etterpå
* Begynn med det vanligste, og ta det uvanlige og unntakene etterpå
* Det er ønskelig at maskinen (programmet) alltid tar avgjørelsene
* Vurder datakvalitet og formålet med forskningen

Bouchard så store fordeler i formelle, stor-skala prosjekter. På den andre siden var han åpen for prosjekter i liten skala og ville være forsiktig med å ta motet fra små og individuelle prosjekter.

NORGE ETTER SOREP

I et nytt foredrag samme dag presenterte Bouchard SOREP og gjennomgikk oppbygging og virkemåte for SOREP-systemet, men som sagt blir ikke dette direkte omtalt i dette referatet. Flere deltakere lot seg stimulere av Bouchards redegjørelser. Etter en dyp tenkepause presentete Nygaard en skisse av en norsk variant av SOREP-systemet, med de nødvendige hensyn tatt til særegenheter ved norsk kildemateriale. Han døpte systemet ad hoc for NOREP. Bouchard mente at Nygaards utkast hadde mye for seg. Oldervoll trodde et NOREP ville være mulig, men ikke brukbart i alle situasjoner. Til et stort anlagt system trenger en programmerere og historikere som til enhver tid kan vedlikeholde og fininnstille systemet. Han så for seg 5-6 personer arbeide med systemet i 10 år. Et slikt system ville ikke kunne gis til forskeren i "bushen". Thorvaldsen tenkte ut og beskrev hvordan han ville modifisere sitt eget lenkingssystem i lys av erfaringen på seminaret. Bouchard sa avslutningsvis at det tar tid å bygge et godt automatisk system, men at det kan betale seg. Forutsetningen er at en satser stort. Han mente at siden det ikke fantes noe tilgjengelig lenkingssystem i Norge, kunne en nå gripe sjansen, bygge opp et system og skape lokal presedens. Han mente det kanskje var lettere å skaffe penger hvis en trakk inn epidemiologisk forskning. SOREP ønsker å utvide på denne måten. Også i USA er det lettere å skaffe penger for epidemiologisk forskning.

LITTERATUR

For dem som har interesse av å sette seg dypere inn i lenkingsproblematikken, kan det være av interesse å vite hva seminardeltakerne fikk tilsendt som bakgrunnsmateriale:

Kitts, Arno et al: The Reconstitution of Viana do Castelo. AHC 1990. (Chapter 4.)

Winchester, Ian: Record Linkage in the Microcomputer Era: A Survey. Demografiska databasen, 1985.

Bouchard, G‚rard: "The Processing of Ambiguous Links in Computerized Family Reconstitution". (Historical Methods, 1986-1.)

Johansen, Hans Chr: "Record-linkage units: Persons, families, dwellings?". Seminarinnlegg, 1984.

The Cambridge Group: "Automatic record linking for family reconstitution". (Local Population Studies No 40, 1988.)

Buchenan, Anne V et al: "Reconstruction of Genealogies from Vital Records: The Laredo Epidemiology Project". (Computers and Biomedical Research 17, 1984.)

(I tillegg delte Lars Nygaard ut materiale om norsk 1800-talls kildemateriale og det interaktive lenkingssystemet.)

DELTAKERNE

Deltakerne på seminaret var:

Gérard Bouchard fra SOREP, Centre Interuniversitaire de Recherches sur les Populations, Université du Québec àChicoutimi, Canada;
Hans Christian Johansen fra Historisk Institut, Odense Universitet, Danmark;
Ivar Fonnes, Hege Brit Randsborg og Gunnar Thorvaldsen fra Riksarkivet;
Elisabeth Haavet fra Senter for humanistisk kvinneforskning, UiB;
Eli Fure og Sølvi Sogner fra Avdeling for historie, UiO;
Kåre Andersen fra Avdeling for humanistisk informatikk, UiO;
Lars Nygaardfra Institutt for informatikk, UiO;
Jan Oldervoll og Michael Drake fra Institutt for samfunnsvitenskap, UiTø.;
Margunn Skjei Knudtsen fra Historisk institutt UNIT-AVH;
Ola Tovmo fra Dovre dataarkiv;
William H Hubbard, Department of History, Concordia University, Montreal, Canada (for tiden også bosatt i Haugesund);
Øystein Reigem fra NAVFs edb-senter for humanistisk forskning.

*navn*	alle navn identiske:	3 poeng
	noen navn samme:	2 poeng
	ingen felles navn:	0 poeng
andre navn	alle identiske:	3 poeng
	mangler i den ene innførselen:	2 poeng
	ingen felles.	0 poeng
(utregnet) fødselsår	0-2 års forskjell:	3 poeng
	3-5 år:	1 poeng
	6-9 år:	0,5 poeng
	10-15 år:	0,3 poeng
	16-24 år:	0,2 (?) poeng
	24 år:	0 poeng
kjønn	samme kjønn:	1 poeng
kjønn	forskjellig kjønn:	0 poeng
yrke	samme yrke:	3 poeng
	yrke innen samme hovedgruppe eller samme sosiale gruppe:	2 poeng
	mangler yrkesopplysninger i den ene eller begge innførslene:	1 poeng
	ulik hovedgruppe eller sosial gruppe:	0,3 poeng
Sivilstatus	identisk sivilstatus:	1,5 poeng
	ulik sivilstatus, men mulig kombinasjon	1 poeng
	umulig kombinasjon av sivilstatus:	0,1 poeng
Fars patronym	identiske patronym:	5 poeng
	patronym mangler i den ene innførselen:	1 poeng
	forskjellige patronym:	0,1 poeng

Ambret	Engebrikt	Ingebreth
Embret	Ingebert	Ingebrikt
Engbret	Ingebredt	Ingebrit
Engebret	Ingebret
Engebreth	Ingebredt

Peders.	Pehrs.	Petersen
Pedersd.	Pehrsd.	Peterson
Pedersdatter	Pers.	Petters.
Pedersen	Persd.	Pettersd.
Pederson	Person.	Pettersen
Peers.	Perss.	Petterson
Peersd.	Persson	Pććrsd.
Peerson	Peters.
Peersson	Petersd.

*	Unngå koding i størst mulig grad
*	Standardiser ikke før lenking (dvs kun fonetisk like variasjoner)
*	Ta vare på de regler som brukes ved (den automatiske) lenkingen, slik at lenkingsarbeidet kan dokumenteres
*	Bevar muligheten for å endre lenker etterpå
*	Ta alltid de letteste lenkene først
*	Bygg en pålitelig base først ved bare å ta de sikreste lenkene. Bygg så videre på denne etterpå
*	Begynn med det vanligste, og ta det uvanlige og unntakene etterpå
*	Det er ønskelig at maskinen (programmet) alltid tar avgjørelsene
*	Vurder datakvalitet og formålet med forskningen